当前位置: 附加器 >> 附加器市场 >> 附链接CVPR北大a
计算机视觉
机器视觉
机器学习
深度学习
编者荐语
将弱监督物体定位看作图像与像素特征域间的域自适应任务,北大、字节跳动提出新框架显著增强基于图像级标签的弱监督图像定位性能。
转载自丨机器之心
物体定位作为计算机视觉的基本问题,可以为场景理解、自动驾驶、智能诊疗等领域提供重要的目标位置信息。然而,物体定位模型的训练依赖于物体目标框或物体掩模等密集标注信息。这些密集标签的获取依赖于对图像中各像素的类别判断,因此极大地增加了标注过程所需的时间及人力。为减轻标注工作的负担,弱监督物体定位(WSOL)通过利用图像级标签(如图像类别)作为监督信号进行物体定位模型的训练,以摆脱训练过程对像素级标注的需求。该类方法大多采用分类激活图(CAM)的流程训练一个图像级特征分类器,而后将该分类器作用于像素级特征得到物体定位结果。但是图像级特征通常保有充足的物体信息,仅识别其中具有鉴别性的物体特征即正确分类图像。因此,在将该分类器作用于在所含物体信息并不充足的像素级特征进行物体定位时,最终得到的定位图往往只能感知到部分物体区域而非整个物体。为解决这一问题,本文将基于CAM的弱监督物体定位过程看作是一个特殊的域自适应任务,即在保证在源图像级特征域上训练的分类器应用在目标像素域时仍具有良好的分类表现,从而使其更好的在测试过程中进行目标定位。从这一视角来看,我们可以很自然的将域自适应方法迁移到弱监督物体定位任务中,使得仅依据图像标签训练的模型可以更为精准的定位目标物体。WeaklySupervisedObjectLocalizationasDomainAdaption