2.2 图像检测

图像检测是指在图像中确定目标物体的位置和内容,可以分解成两个子任务:获取物体的边界框和识别边界框内图像区域的语义信息。本节介绍的图像检测包含两个内容:图像匹配和目标检测。

现在人们说到检测,主要是指目标检测,即通过RPN(Region Proposal Network,区域候选网络)等方法获得某类物体的标记框。事实上,早期研究者通过算法来检测工件、标识牌等,也是返回指定物体的标记框。这类任务通常需要一个模板图像,以像素矩阵的形式给出目标信息,然后在测试图像中找到和模板一致或视觉相似的图像块,这类任务通常被称为图像匹配。因为匹配获得的图像块内容和模板内容相似,所以可以直接将模板的语义信息赋给图像块,而无须再通过分类等方式进行推理。在工业界,图像匹配和目标检测通常具有相同的目的,因此,我们把图像匹配和模板检测统一归为图像检测,同时,对图像检测和目标检测的概念进行区分。

需要指出的是,图像匹配和目标检测任务在识别内容上不完全相同。图像匹配的输入为两幅图像,需要模板和测试图像的某个子图像块在像素层面是相似的,通常用于检测同一个或同一类物体,例如相同的商品、工具等。这种匹配通常只涉及包含光照、尺度和角度方面变化的情况,而没有形变或在外观上的区别。

早期算法采用非监督的方法,例如目标匹配、特征匹配等。随着深度学习的发展,近年来也有通过网络进行匹配的方法。这类任务的重点是寻找像素间的相似性,并希望模型具有较强的泛化能力,即使新输入的模板图像与其他模板有很大的差别,也能在测试图像中被找出。

目标检测更关注语义之间的相似性,通常用于检测相同语义标签的物体,例如检测图中所有的行人和汽车,而不是特定的行人或汽车,因此,目标之间在外观上可以有很大的差别。目标检测只输入一幅测试图像,从中找出和训练数据集物体标签相同的目标,因而需要大量的训练数据,使得特征具有可区分性。同时,目标检测通常无法检测全新类别的物体。本节将详细介绍这两个研究方向相关算法的研究进展。