第1章 绪论

1.1 图像场景内容理解的背景与意义

随着照相机、摄像机、深度摄像机等设备及其技术的快速发展与应用普及,广泛存在的图像、视频等数据,越来越影响人们的生产和生活。在行业需求的牵引和科技发展的推动下,人们越来越需要理解、处理、加工和利用各种图像场景内容。例如,在航空航天领域,图像场景内容理解可以应用于飞行器导航和空间目标探测等;在公共安全领域,图像场景内容理解可以应用于目标识别、安全监控、事件推演和应急处理等;在文化传媒领域,图像场景内容理解可以应用于影视后期制作、场景编辑合成与数字媒体内容处理等;在旅游服务行业,图像场景内容理解可以应用于景区数字化内容处理与服务推送等。总之,在社会经济生活的各行各业,图像场景内容理解均具有广泛的应用,带来了巨大的经济效益。

事实上,图像场景内容理解已经成为计算机视觉、模式识别、计算摄像学、虚拟现实、计算机图形学、人工智能等科学研究领域及其交叉方向的国际前沿研究热点。从相关科学技术研究的国际发展趋势来看,图像场景理解不仅包括图像场景的区域语义理解和划分,还包括图像场景的空间结构或者几何信息估计,以及与此紧密相关的图像场景内容约束、辅助和驱动下的三维场景模型构建和应用。

如图1-1所示英格兰著名画家乔治·斯塔布斯(George Stubbs, 1724—1806)的名作《大橡树下的母马和马驹》,人眼看到这幅油画时,可以识别出马、树、地面以及远处的房屋,并分辨出马的属性,如马的颜色、大小、位置、方向等;进一步,人类视觉可以感知这幅油画所描绘的不同对象在场景中的前后远近关系,即空间几何结构关系,如小马驹站在母马的前面、母马站在一棵橡树的前面。图像场景内容理解要达到的目标,是让计算机具有理解图像场景的能力,能够像人类一样理解图像场景中的内容,包括让计算机识别出马、树、地面以及远处的房屋,理解马、树、地面、房屋的属性以及它们之间的空间几何结构关系,这涉及图像场景语义分割与标记、图像场景几何结构估计、对象属性解析等多方面的研究工作。

图像场景语义分割与标记是图像场景内容理解的基础问题,它的难点在于:如何使计算机识别出不同语义类别的对象,并且准确分割出对象的轮廓区域。由于图像特征变化多样,同一种语义类别的对象有可能表现出不相似的外观特征,不同语义类别的对象也有可能表现出相似的外观特征。如图1-1所示,同样是马这种语义类别,五匹马的颜色不一、体态各异;树与草地是不同的语义类别,但是它们呈现出相似的颜色特征。人类视觉系统可以容易地分辨出不同颜色的马匹都是马这种语义类别,也可以分辨出哪些绿色区域是树、哪些绿色区域是草地,但是对计算机来说这并不是一件容易的事情。

图1-1 《大橡树下的母马和马驹》(乔治·斯塔布斯)[1]

图像场景几何结构估计是图像场景内容理解的重点问题。图像是真实世界在二维平面的投影,而这种投影损失了真实世界中对象或物体之间的空间结构信息。由于人体的生理构造,人类视觉系统能够感知图像平面内蕴含的空间结构,包括图像中对象区域之间的遮挡关系、前后关系以及相对深度关系。但是对计算机来说图像是一堆二维数字,不具有真实的空间结构信息。因此,如何使计算机通过二维信息恢复出图像场景中对象或区域之间的空间结构关系,是图像场景几何结构估计的难点所在。

对象属性解析是图像场景内容理解的难点问题,它与图像场景语义分割与标记、图像场景几何结构估计之间相互促进、优化。所谓对象属性,是指一类事物区别于其他事物的根本特征。通常这些特征与语义是关联的,是带有语义的高层特征。对象属性的研究工作不只局限于对象的识别、场景的分类,还包括利用属性信息辅助场景内容的分割、解析、生成,是对图像场景更深层次的理解,具有重要意义。在场景级理解的基础上,结合更多自然特征和先验约束,实现对象级图像内容理解是图像场景理解下一步发展的趋势。

针对上述几个关键问题,本书将在后续章节中重点围绕图像场景的语义理解、图像空间的几何理解、对象级场景解析三个方面详细阐述,并对相关技术在人工智能领域中的应用进行相应介绍。