Object Instance Mining:新弱监督目标检测框架(OIM)[Paper Download]
[Code Download] 目标检测领域,又迎来新突破。 目标检测,简而言之就是检测出图像中所有感兴趣的物体,并确定它们的类别和位置,它在自动驾驶、图像理解、智慧城市等领域都有非常广泛的应用。 然而,现有的基于深度学习的目标检测方法成本甚高——需要标注每个图片/视频中的所有目标物体的类别和位置信息,这种方法也叫强监督目标检测方法。 商汤科技视频大数据研究团队提出了一种全新的基于物体实例挖掘(Object Instance Mining, OIM)的弱监督目标检测框架,只需要标注图像中出现的目标物体类别,通过算法“触类旁通”找出图像中的全部物体,并进一步确定全部目标物体的类别和位置信息。 与强监督目标检测所需的标注相比,该方法极大地降低了标注的成本,加快了算法的产品落地速度,该论文被AAAI 2020收录。 那么他们是如何实现的呢? 全新弱监督目标检测框架该目标检测框架主要由多实例检测(MID,Multiple Instance Detection)及目标实例挖掘(OIM, Object Instance Mining)两个部分构成,具体如下图1:
比如你输入一张图片,系统会预先提取出来潜在的物体候选框(Region Proposals,图中蓝色框),再和原图一起,送入到神经网络(Backbone Network)进行模型训练,将这些潜在的框进行分类,并分离出图中的物体和背景。 这个过程都是通过现有的MID方法实现,但这种方法的结果不够准确。 商汤研究团队在MID方法的基础上创新性地融入了OIM方法。基于候选区域的特征,OIM方法建了空间图(Spatial Graph)和外观图(Appearance Graph)。
可能很多人有疑问:空间图和外观图是个啥? 空间图的官方解释是,基于特征最明显的候选框,通过IOU(Intersection over Union,即重叠部分)>0.5的条件,寻找与该候选框空间相似的其他候选框构成的空间图,并给这些候选框赋同样的类别信息,加入模型训练。 比如图2中的(a)就是空间图,这张图最先检测到一辆银色车,它的特征很容易被学到,对应的物体框精度也比较高,根据空间相似度,挖掘到其他含银色车的候选框。 基于外观相似度,可以计算它与其他候选框之间的外观相似度,挖掘图片中可能属于同一类别的物体实例,建立外观图,比如图b和c,通过外观相似度找到了另外两辆黑色车。 找到之后,再建立和图(a)类似的空间图——包含更多物体实例,进而不断循环,这个模型就可以识别不同类别的物体,识别越来越多的物体实例。 再把所有潜在的物体加入到网络学习过程中,就能学到更鲁棒的特征,最终输出的检测结果精度更高。 除此之外,本文还引入了物体实例权重调整损失函数(Reweighted loss),使网络可以同时学习到更完整的物体实例,从而让弱监督目标检测方法得到更加准确的检测框。 因为对于图像中的一些非刚性物体,比如人体、猫狗等,由于其局部区域非常具有辨识力(如猫脸),弱监督检测算法检测到的框可能是猫脸的框,但通过本文提出的损失函数可以学习到完整的猫,使检测结果更完整。 检测准确率行业领先本文在PASCAL VOC 2007训练集上进行了弱监督物体实例挖掘过程的可视化,如下图3所示(从左 到右),随着网络的迭代学习,更多更准确的物体实例可以被检测出来并加入训练中。
图3是检测奶牛的过程,第一张第一列是随机初始化的结果,网络还没进行学习;第二列至第四列
是网络迭代的不同阶段(第一个迭代, 第三个迭代,和最后的迭代),可以看出,训练到一定阶
段,算法不仅能检测出所有的奶牛,而且奶牛的检测框也越来越精确。 本文使用PASCAL VOC 2007及VOC 2012数据进行了测试,比较了物体实例挖掘(OIM)方法与其 他弱监督检测方法的效果。结果表明,本文提出的弱监督物体实例挖掘方法在定位精确率以及检测 准确率均达到或超过目前最先进的方法。
参考文献1. Chenhao Lin, Siwen Wang, Dongqi Xu, Yu Lu, Wayne Zhang. Object Instance Mining for Weakly Supervised Object Detection. In AAAI, 2018. Stats Copyright © 2021 Wayne Zhang. |