第1章 双阶段检测

1.6.1 Mask R-CNN的动机

目标检测和实例分割是计算机视觉领域非常经典的两个重要应用,而且它们都需要对目标物体进行细粒度的分析。很自然地会想到,结合这两个任务不仅可以使模型同时具有目标检测和实例分割两个功能,还可以使两个功能互相辅助,共同提高模型精度,这便是提出Mask R-CNN的动机。Mask R-CNN的结构如图1.22所示。

图1.22 Mask R-CNN的结构

如图1.22所示,Mask R-CNN的流程分成两步:

(1)使用RPN产生候选区域;

(2)分类、检测框预测、实例分割的多任务预测。

在1.3节中,我们介绍了Fast R-CNN采用ROI池化来处理候选区域尺寸不同的问题。对于实例分割任务,一个非常重要的要求便是特征层和输入层像素的一一对应,ROI池化显然不满足该要求。为了解决这个问题,Mask R-CNN提出了ROI池化更适配与分割任务的ROI对齐,从而使Faster R-CNN的特征层也能进行实例分割。