使用3D卷积从FPN中提取尺度不变特征

[Paper Download] [Code Download] [pdf version]

在CVPR 2020上,为了更好地解决物体检测中的尺度问题,商汤团队重新设计了经典的单阶段检测器的FPN[1]以及HEAD结构,通过构造更具等变性的特征金子塔,以提高检测器应对尺度变化的鲁棒性,可以使单阶段检测器在coco上提升 4mAP,完整代码已开源。

动机

Scale-Equalizing Pyramid Convolution for Object Detection 







图1 效果概览

文章提出了一个针对物体具有大尺度变化数据集的检测算法。工作的研究动机在于:

1. 当前所有基于RetinaNet的单阶段检测器,都采用了共享权重的分类HEAD以及回归HEAD在特征金字塔上滑动从而检测不同大小的物体,相应的最为适应这种结构的特征金子塔对于尺度变化应当具有等变性。

2. 经典的底层特征提取算法如SIFT,其高斯金字塔具有很好的尺度等变性,我们思考了深度神经网络中特征金字塔与高斯金字塔的区别,从而提出了提高其等变性的算法。

关于高斯金字塔的等变性质,可以结合下面一个示例为大家展示这种性质:

Scale-Equalizing Pyramid Convolution for Object Detection 







图2、图3

1. 如图2,可以用一个高斯卷积核去除高频后降采样一次,使得大羊的羊嘴特征跟小羊在同一尺度,从而在降采样的图上进行大羊羊嘴的检测。

2. 如图3,可以用一个高斯卷积核去除高频后,将特征提取算子变为变为空洞卷积,亦可以进行大羊的羊嘴检测。

这两种方法不仅符合直觉,其在数字信号处理理论中有较为完善的理论论证,在此不再赘述。

回想单阶段检测器(如RetinaNet),

Scale-Equalizing Pyramid Convolution for Object Detection 







图4 retinanet结构

分析

相比高斯金字塔,从backbone的不同stage抽取特征图组成的的特征金字塔其实失去了严格的等变性。

1. 相比于图像处理中low level的特征,深度神经网络提取的特征往往经过足够多基础特征的组合, 其特征往往有更为复杂的高级语义,并且由于我们用相同的backbone进行特征的提取不同尺度的物体的特征会有相互竞争的现象。

2. 深度神经网络中,因为足够多的卷积与非线性激活单元,其不同stage感受野的变化在特征图的不同位置具有不一致的现象, 使得金子塔的两层间很难有高斯金字塔一样,不同大小物体的特征在downsample一次, 或者增大特征提取算子的dilation这样的处理后具有一致性。

关于不同尺度物体的竞争:

Scale-Equalizing Pyramid Convolution for Object Detection 







图5

网络设计

如何改进特征金子塔使其具有更好的等变性质呢?

我们发现,在特征金子塔的某一层为基准,其与上下两层间具有更好的相关性,直觉上可以推测其底部一层往往保留有更多的定位相关的信息,更高层往往具有更好的分类相关的信息,而以往的feature fusing的方法都遗漏了这种空间尺度(特征金子塔层间)的相关性。

Scale-Equalizing Pyramid Convolution for Object Detection 







图6 FPN不同层间的相关性

无论是形式上的分析还是实验发现的这种相关性暗示我们尺度空间上确实有值得提取的特征,我们希望通过在尺度空间上进行卷积来提取这种特征。

考虑到FPN的不同层的分辨率不同,我们由此提出金字塔卷积(Pconv)的结构。

Scale-Equalizing Pyramid Convolution for Object Detection 
Scale-Equalizing Pyramid Convolution for Object Detection 







图7 尺度空间卷积(Pconv) 示意图

Scale-Equalizing Pyramid Convolution for Object Detection 







图8 iBN 示意图

Scale-Equalizing Pyramid Convolution for Object Detection 







图9 SEPC 示意图

实验结果

我们做了详尽的消融实验,以确保我们每个模块的有效性.我们选取了FSAF[4],RetinaNet,FreeAnchor[5]三个有代表性的model验证我们的有效性。

Scale-Equalizing Pyramid Convolution for Object Detection 

同时我们选取了FreeAnchor为基础与当前SOTA检测器进行了比较。

Scale-Equalizing Pyramid Convolution for Object Detection 

参考文献

[1] Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In CVPR, 2017.
[2]Golnaz Ghiasi, Tsung-Yi Lin, and Quoc V Le. Nas-fpn: Learning scalable feature pyramid architecture for object detection. In CVPR, 2019.
[3] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In ICCV, 2017.
[4] Chenchen Zhu, Yihui He, and Marios Savvides. Feature selective anchor-free module for single-shot object detection. In CVPR, 2019.
[5] Xiaosong Zhang, Fang Wan, Chang Liu, Rongrong Ji, and Qixiang Ye. FreeAnchor: Learning to match anchors for visual object detection. In NIPS, 2019.







Locations of visitors to this page

profile counter Stats

Copyright © 2018 Wei Zhang.