1.3.3 视觉系统处理的三个阶段

马尔从视觉计算理论出发,将系统分为自下而上的三个阶段,即视觉信息从最初的原始数据(二维图像数据)到最终对三维环境的表达经历了三个阶段的处理,如图1-4所示。第一阶段(早期视觉处理阶段)构成所谓“要素图”或“基元图”,基元图由二维图像中的边缘点、直线段、曲线、顶点、纹理等基本几何元素或特征组成。对第二阶段(中期视觉处理阶段),马尔称为对环境的2.5维描述。2.5维描述是一种形象的说法,即部分的、不完整的三维信息描述,用“计算”的语言来讲,就是物体在以观察者为中心的坐标系下的三维形状与位置。当人眼或相机观察周围的物体时,观察者对三维物体最初是以自身的坐标系来描述的,而且只能观察到物体的一部分(另一部分是物体的背面或被其他物体遮挡的部分)。这样,重建的结果就是以观察者坐标系描述的部分三维物体形状,称为2.5维描述。这一阶段中存在许多并行的相对独立的模块,如立体视觉、运动分析、由亮度恢复表面形状等。事实上,从任何角度去观察物体,观察到的形状都是不完整的。不难设想,人脑中存有同一物体从所有可能的观察角度看到的物体形象,可以用来与所谓的2.5维描述进行匹配与比较,2.5维描述必须进一步处理以得到物体的完整三维描述,而且必须是物体在某一固定坐标系下的描述,这一阶段为第三阶段(后期视觉处理阶段)。

图1-4 视觉系统处理的三个阶段

马尔的视觉计算理论是视觉研究中第一个影响较大的理论,它推动了这一领域的发展,对图像理解和机器视觉的研究具有重要作用。但是马尔的理论也有不足之处,比如下面四个有关整体框架的问题。

1)框架中的输入是被动的,输入什么图像,系统就加工什么图像。

2)框架中的目的不变,总是恢复场景中物体的位置和形状。

3)框架缺乏或者说没有足够重视高层知识的指导作用。

4)整个框架中的信息加工过程基本自下而上,单向流动,没有反馈。

针对上述问题,人们提出了一系列改进思路,具体如图1-5所示。改进后的马尔框架优点如下。

图1-5 改进的马尔框架

1)人类视觉具有主动性,例如会根据需要改变视角以帮助识别。主动视觉指视觉系统可以根据已有的分析结果和视觉任务的当前要求决定相机的运动,以便从合适的位置和视角获取相应的图像。人类的视觉又具有选择性,可以注目凝视(以较高分辨率观察感兴趣的区域),也可以对场景中某些部分视而不见。选择性视觉指视觉系统可以根据已有的分析结果和视觉任务的当前要求决定相机的注意点,以获取相应的图像。考虑到这些因素,改进框架中增加了图像获取模块,该模块会根据视觉目的来选择图像采集方式。

选择性视觉也可看作主动视觉的另一种形式。上述的主动视觉是指移动相机以聚焦到当前环境中被关注的特定目标上,而选择性视觉是关注整幅图像中的一个特定区域并与之动态交互以获得解释。尽管这两种形式看起来很相似,但在第一种形式中,主动性主要体现在相机的观察上,在第二种形式中,主动性主要体现在加工层次和策略上。虽然两种形式中都有交互,即视觉都有主动性,但是移动相机是将完整场景全部记录和存储,因而是个较为烦琐的过程,而且这样得到的整体解释并不一定全都被使用。而第二种形式中仅收集场景中当前最有用的部分、缩小其范围并增强其质量以获取有用的解释模仿了人类解释场景的过程。

2)人类的视觉可以根据不同的目的进行调整。有目的的视觉任务指视觉系统根据视觉的目的进行决策,例如,是完整、全面地恢复场景中物体的位置和形状等信息,还是仅仅检测场景中是否存在某物体。这里的关键问题是确定任务的目的,因此,在改进的框架中增加了视觉目的框架,可根据理解的不同目的确定进行定性分析还是定量分析,但目前定性分析还缺乏比较完备的数学工具。有目的的视觉动机是仅将需要的信息明确化,例如,无人驾驶汽车的避免碰撞功能就不需要精确的形状描述,只要一些定性的结果即可。这种思路还没有坚实的理论基础,但为生物视觉系统的研究提供了许多实例。此外,与有目的的视觉密切相关的定性视觉需求是对目标或场景的定性描述。它的动机不是去表达定性任务或决策所不需要的几何信息。定性信息的优点是对各种不需要的变换或噪声没有定量信息敏感。定性或不变性允许在不同的复杂层次下方便地解释所观察到的事件。

3)人类可以在仅从图像获取了部分信息的情况下完全解决视觉问题,原因是隐含地使用了各种知识。例如,借助设计资料来获取物体的形状信息,从而有助于解决由单幅图恢复物体整个形状的困难。利用高层知识可解决低层信息不足的问题,所以改进框架中增加了高层知识模块。

4)人类视觉中前后处理之间是有交互作用的,改进框架中也考虑了这一点。