Object Instance Mining:新弱监督目标检测框架(OIM)

[Paper Download] [Code Download]

目标检测领域,又迎来新突破。

目标检测,简而言之就是检测出图像中所有感兴趣的物体,并确定它们的类别和位置,它在自动驾驶、图像理解、智慧城市等领域都有非常广泛的应用。

然而,现有的基于深度学习的目标检测方法成本甚高——需要标注每个图片/视频中的所有目标物体的类别和位置信息,这种方法也叫强监督目标检测方法。

商汤科技视频大数据研究团队提出了一种全新的基于物体实例挖掘(Object Instance Mining, OIM)的弱监督目标检测框架,只需要标注图像中出现的目标物体类别,通过算法“触类旁通”找出图像中的全部物体,并进一步确定全部目标物体的类别和位置信息。

与强监督目标检测所需的标注相比,该方法极大地降低了标注的成本,加快了算法的产品落地速度,该论文被AAAI 2020收录。

那么他们是如何实现的呢?

全新弱监督目标检测框架

该目标检测框架主要由多实例检测(MID,Multiple Instance Detection)及目标实例挖掘(OIM, Object Instance Mining)两个部分构成,具体如下图1:

Object Instance Mining for Weakly Supervised Object Detection, sensetime, detection, wsod 







图1:物体实例挖掘弱监督目标检测框架

比如你输入一张图片,系统会预先提取出来潜在的物体候选框(Region Proposals,图中蓝色框),再和原图一起,送入到神经网络(Backbone Network)进行模型训练,将这些潜在的框进行分类,并分离出图中的物体和背景。

这个过程都是通过现有的MID方法实现,但这种方法的结果不够准确。

商汤研究团队在MID方法的基础上创新性地融入了OIM方法。基于候选区域的特征,OIM方法建了空间图(Spatial Graph)和外观图(Appearance Graph)。

Object Instance Mining for Weakly Supervised Object Detection, sensetime, detection, wsod 







图2:物体实例挖掘过程示例

可能很多人有疑问:空间图和外观图是个啥?

空间图的官方解释是,基于特征最明显的候选框,通过IOU(Intersection over Union,即重叠部分)>0.5的条件,寻找与该候选框空间相似的其他候选框构成的空间图,并给这些候选框赋同样的类别信息,加入模型训练。

比如图2中的(a)就是空间图,这张图最先检测到一辆银色车,它的特征很容易被学到,对应的物体框精度也比较高,根据空间相似度,挖掘到其他含银色车的候选框。

基于外观相似度,可以计算它与其他候选框之间的外观相似度,挖掘图片中可能属于同一类别的物体实例,建立外观图,比如图b和c,通过外观相似度找到了另外两辆黑色车。

找到之后,再建立和图(a)类似的空间图——包含更多物体实例,进而不断循环,这个模型就可以识别不同类别的物体,识别越来越多的物体实例。

再把所有潜在的物体加入到网络学习过程中,就能学到更鲁棒的特征,最终输出的检测结果精度更高。

除此之外,本文还引入了物体实例权重调整损失函数(Reweighted loss),使网络可以同时学习到更完整的物体实例,从而让弱监督目标检测方法得到更加准确的检测框。

因为对于图像中的一些非刚性物体,比如人体、猫狗等,由于其局部区域非常具有辨识力(如猫脸),弱监督检测算法检测到的框可能是猫脸的框,但通过本文提出的损失函数可以学习到完整的猫,使检测结果更完整。

检测准确率行业领先

本文在PASCAL VOC 2007训练集上进行了弱监督物体实例挖掘过程的可视化,如下图3所示(从左 到右),随着网络的迭代学习,更多更准确的物体实例可以被检测出来并加入训练中。

Object Instance Mining for Weakly Supervised Object Detection 







图3:目标实例挖掘过程,蓝色框是指检测不正确的框(overlap<=0.5),红色框是指正确检测 到的框(overlap>0.5),下半部分是指候选框的响应及变化

图3是检测奶牛的过程,第一张第一列是随机初始化的结果,网络还没进行学习;第二列至第四列 是网络迭代的不同阶段(第一个迭代, 第三个迭代,和最后的迭代),可以看出,训练到一定阶 段,算法不仅能检测出所有的奶牛,而且奶牛的检测框也越来越精确。

本文使用PASCAL VOC 2007及VOC 2012数据进行了测试,比较了物体实例挖掘(OIM)方法与其 他弱监督检测方法的效果。结果表明,本文提出的弱监督物体实例挖掘方法在定位精确率以及检测 准确率均达到或超过目前最先进的方法。

Object Instance Mining for Weakly Supervised Object Detection 







表1:OIM与其他目前最先进的方法在PASCAL VOC 2007 测试集上检测精确度的比较(AP) (%),mAP 是指平均检测精度

Object Instance Mining for Weakly Supervised Object Detection 







表2:OIM与其他目前最先进的方法在PASCAL VOC 2007训练验证集上定位精确度的比较(CorLoc) (%)

Object Instance Mining for Weakly Supervised Object Detection 







表3:OIM与其他目前最先进的方法在PASCAL VOC 2012 验证集/测试集上检测精确度的比较(AP) (%)

Object Instance Mining for Weakly Supervised Object Detection 







表4:OIM与其他目前最先进的方法在PASCAL VOC 2012训练验证集上定位精确度的比较(CorLoc) (%)

参考文献

1. Chenhao Lin, Siwen Wang, Dongqi Xu, Yu Lu, Wayne Zhang. Object Instance Mining for Weakly Supervised Object Detection. In AAAI, 2018.

2. Tang, P.; Wang, X.; Bai, X.; and Liu, W.. Multiple instance detection network with online instance classifier refinement. In CVPR, 2017.

3. Tang, P.; Wang, X.; Bai, S.; Shen, W.; Bai, X.; Liu, W.; and Yuille, A. L.. PCL: Proposal cluster learning for weakly supervised object detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018.







profile counter Stats

Copyright © 2021 Wayne Zhang.