四、交互技术

(一)语音交互

与虚拟世界进行语音交互是虚拟现实系统的一个高级目标,虚拟现实系统中的语音技术包括语音识别和语音合成。

(1)语音识别也叫自动语音识别(Automatic Speech Recognition, ASR),是指将人说话的语音信号转换为可被计算机程序所识别的文字信息,进而分析出说话人的语音指令和语意内容。语音识别一般包括参数提取、参考模式建立、模式识别等过程。以事先建立的样本库为基础,当用户通过话筒将一个声音信号输入系统中,系统把它转换成数据文件后,语音识别软件便开始将输入的声音样本与事先储存好的声音样本进行对比;声音对比工作完成之后,系统就会找到一个它认为最“像”的声音样本序号,由此可以知道输入者刚才念的声音是什么意义,进而执行此命令。语音识别技术可以解放用户的双手,同时让用户利用语音这一自然交流方式和系统进行交互。语音识别技术的应用领域十分广泛,例如,语音文档录入、语音导航等,尤其在电信业、汽车业、移动应用领域中的使用有着快速的增长。例如,苹果公司发布的Siri是安装在iPhone上的语音助手,支持基于自然语音输入的地图搜索、备忘录提醒、日程安排等功能。

(2)语音合成(Text To Speech, TTS)是指将文本信息转变为语音数据,并以语音方式播放。在语音合成技术中,首先需要对文本进行分析,并对它进行韵律建模;然后从原始语音库中取出相应的语音基元,对语音基元进行韵律调整和修改,最终合成出符合要求的语音。

在虚拟现实系统中,如果将语音合成和语音识别技术结合起来,可以使用户与计算机所创建的虚拟环境进行简单的语音交流,这也是真正的人机自然交互。因此,这种技术在虚拟环境中具有突出的应用价值。

(二)手势交互

手势是一种较为简单、方便的交互方式。如果将虚拟世界中常用的指令定义为一系列手势集合,那么虚拟现实系统只需跟踪用户手的位置以及手指的夹角就有可能判断出用户的输入指令。利用这些手势,参与者就可以完成诸如导航、拾取物体、释放物体等操作了。

目前,手势识别系统根据输入设备的不同,主要分为基于数据手套的识别和基于视觉(图像)的手势识别系统两种。

(1)基于数据手套的手势识别系统就是利用数据手套和空间位置跟踪定位设备来捕捉手势的空间运动轨迹和时序信息。它能够对较为复杂的手部动作进行检测,包括手的位置、方向和手指弯曲度等,并可根据这些信息对手势进行分类,因而较为实用。这种方法的优点是系统识别率高,缺点是用户需要穿戴复杂的数据手套和空间位置跟踪定位设备,相对限制了人手的自由运动,并且数据手套、空间位置跟踪定位等输入设备的价格比较昂贵。

(2)基于视觉的手势识别是通过摄像机连续拍摄手部的运动图像,然后采用图像处理技术提取出图像中的手部轮廓,进而分析出手势形态。大致流程包括手势分割、手势建模和特征匹配,如图2-20所示。根据不同的识别对象,识别方法有静态手势识别和动态手势识别两种。

图2-20 手势识别处理流程图

静态手势识别是针对单帧的手势图片做识别。在手势分割的过程中主要使用肤色模型(色彩聚类特征)、轮廓边缘(Canny检测)等;在做手势建模时主要使用一些图像属性(轮廓,图像矩,特征,直方图);特征匹配时使用模板匹配法、神经网络法等。

动态手势识别针对视频序列,手势分割涉及运动区域检测,场景建模等。在做手势分割时经常用到的运动跟踪方法有差值图像分割,卡尔曼跟踪预测,背景剪除法等。在做手势建模时主要使用一些运动序列(计算运动光流,抽取运动轨迹)来估算。特征匹配时使用类似隐马尔科夫模型法、动态时间规划法等。

手势交互的最大优势在于用户可以自始至终采用同一种输入设备(通常是数据手套)与虚拟世界进行交互。这样,用户就可以将注意力集中于虚拟世界,从而降低对输入设备的额外关注。

(三)表情交互与人脸识别

面部表情识别在人与人交流过程中传递信息时发挥重要作用。如果计算机或虚拟场景中的人物角色能够像人类那样具有理解和表达情感的能力,并能够自主适应环境,那么就能从根本上改变人与计算机之间的关系。然而要让计算机能看懂人的表情却不是一件很容易的事情,迄今为止,计算机的表情识别能力还与人们的期望相差较远。目前,计算机面部表情识别技术通常包括三个步骤:人脸图像的检测与定位、表情特征提取、表情分类。

人脸图像的检测与定位就是在输入图像中找到人脸的确切位置,它是人脸表情识别的第一步。人脸检测的基本思想是建立人脸模型,比较输入图像中所有可能的待检测区域与人脸模型的匹配程度,从而得到可能存在人脸的区域。根据对人脸知识利用方式的不同,可以将人脸检测方法分为两大类:基于特征的人脸检测方法和基于图像的人脸检测方法。第一类方法直接利用人脸信息,比如人脸肤色、人脸的几何结构等,这类方法大多用模式识别的经典理论,应用较多。第二类方法并不直接利用人脸信息,而是将人脸检测问题看作一般的模式识别问题,待检测图像被直接作为系统输入,中间不需特征提取和分析,直接利用训练算法将学习样本分为人脸类和非人脸类,检测人脸时只要比较这两类与可能的人脸区域,即可判断检测区域是否为人脸。

表情特征提取是指从人脸图像或图像序列中提取能够表征表情本质的信息,例如,五官的相对位置、嘴角形态、眼角形态等。表情特征选择的依据如下所述。尽可能多地携带人脸面部表情特征,即信息量丰富;尽可能容易提取;信息相对稳定,受光照变化等外界的影响小。

表情分类是指分析表情特征,将其分类到某个相应的类别。在这一步开始之前,系统需要为每个要识别的目标表情建立一个模板。在识别过程中,将待测表情与各种表情模板进行匹配;匹配度越高,则待测表情与该种表情越相似。图2-21显示了一种简单的人脸表情分类模板,该模板的组织为二叉树结构。在表情识别过程中系统从根节点开始,逐级将待测表情和二叉树中的节点进行匹配,直到叶子节点,从而判断出目标表情。

图2-21 人脸表情分类模板

在表情分类步骤中,除了模板匹配方法,人们还提出了基于神经网络的方法、基于概率模型的方法等新技术。

(四)眼动跟踪技术

在虚拟现实系统中,将视线的移动作为人机交互方式不但可以弥补头部跟踪技术的不足,同时还可以简化传统交互过程中的步骤,使交互更为直接。例如,视线交互可以代替鼠标的点击操作,如果用户盯着感兴趣的目标,计算机便能“自动”将光标置于其上。早期的视线跟踪技术首先应用于心理学研究等领域,目前,多用于军事(如飞行员观察记录等)、阅读以及帮助残疾人进行交互等领域。

支持视线移动交互的相关技术称为视线跟踪技术,也称眼动跟踪技术,主要有强迫式与非强迫式、穿戴式与非穿戴式、接触式与非接触式之分。它的主要实现手段包括以硬件为基础和以软件为基础两类。以硬件为基础的跟踪技术需要用户戴上特制头盔、特殊隐形眼镜,或者使用头部固定架、置于用户头顶的摄像机等。这种方式识别精度高,但对用户的干扰很大。为了克服眼动跟踪装置对人的干扰,近年来人们提出了以软件为主,实现对用户无干扰的眼动跟踪方法,其基本工作原理是先利用摄像机获取人眼或脸部图像,然后用图像处理算法实现图像中人脸和人眼的检测、定位与跟踪,从而估算用户的注视位置。

在眼动跟踪技术的发展过程中,人们提出了很多跟踪眼睛运动的方法。从一开始的直接观察法、机械记录法,到后来的电磁感应法、电流记录法及接触镜法、角膜反射跟踪法、虹膜-巩膜边缘跟踪技术、瞳孔-角膜跟踪法等。但是,目前所有的眼动跟踪技术都存在一定的缺陷,将其应用于人机交互中还有一定的局限性,具体表现为精度与自由度的问题、“米达斯接触”问题以及算法问题。

(1)首先是精度与自由度的问题。以硬件为基础的视线跟踪技术与以软件为基础的视线跟踪技术相比,其精度较高,但由于使用的设备限制了人的自由度,所以对人有较大干扰,使用起来不太方便;以软件为基础的视线跟踪技术,虽然降低了对用户的限制,但其精度相对而言低得多,要想得到准确的注视焦点比较困难。精度与自由度目前是一对尖锐矛盾。

(2)其次是“米达斯接触”问题。用户视线的移动往往是随意的,并不总有一定的意义,移动视线不代表就要发出一条计算机命令。因此,如果屏幕上的计算机鼠标指针总是随着用户的视线移动,很可能会引起用户的厌烦。如果能够在用户希望发出控制时,界面及时地处理用户的视线输入,相反时则忽略视线的移动,则可以很好地解决这个问题。遗憾的是,一般无法区分这两种情况,较好的解决手段是需要键盘等其他设备的配合。

(3)再次是算法问题。眼动中的抖动、眨眼易造成数据中断,这种干扰信号使得获取注视焦点的屏幕投影以及眼动数据都存在一定困难。

(五)其他感觉器官的反馈技术

目前,虚拟现实系统的反馈形式主要集中在视觉和听觉方面,对其他感觉器官的反馈技术还不够成熟。

在触觉方面,由于人的触觉相当敏感,一般精度的装置根本无法满足要求,所以对触觉与力觉的反馈研究还相当困难。例如接触感,现在的系统已能够给身体提供很好的提示,但却不够真实;对于温度感,虽然可以利用一些微型电热泵在局部区域产生冷热感,但这类系统还很昂贵;对于力量感觉,很多力反馈设备被做成骨架形式,从而既能检测方位,又能产生移动阻力和有效的抵抗阻力,但是这些产品大多还是粗糙的、实验性的,距离实用尚有一定距离。

在味觉、嗅觉和体感等器官感觉方面,人们至今仍然对它们的理论知之甚少,有关产品相对较少,对这些方面的研究都还处于探索阶段。

总之,虚拟现实技术的发展是要使人机交互系统从精确、二维的交互向非精确、三维的交互转变。因此,尽管手势语言、眼动跟踪、面部表情识别以及其他感官的自然交互技术在现阶段还很不完善,但对它们的研究具有非常重要的意义。