三、呈现技术
(一)视觉呈现技术
1.真实感图形绘制技术
虚拟现实系统要求虚拟场景具有一定的真实感,这样用户才能有身临其境的感觉。所谓图形的真实感,是指计算机所生成的图形反映客观世界的程度。长期以来,图形真实感问题一直是计算机图形学研究的一个主要课题,主要方法如下所述。
(1)纹理映射(图2-11)。纹理映射是真实感图像制作的一个重要部分,纹理映射是将纹理图像贴在简单物体的几何表面上,以近似描述物体表面的纹理细节。运用它可以方便地制作出极具真实感的图形而不必花过多时间来考虑物体的表面细节,它是一种改善真实性的简单措施。
图2-11 纹理映射
(2)环境映射。在计算机图形学中,环境映射是模仿现实生活中镜面反射现象的技术。环境映射是指将物体所处位置的全景图贴在其表面上,从而表达该物体表面的镜面反射效果和规则投射效果。这种技术能够极大提高图形图像的真实感。
(3)反走样。走样是指由于光栅显示器的离散特性,引起几何模型边缘的锯齿性失真现象,反走样技术的目标就是消除这种现象。一个简单的方法就是,以两倍分辨率绘制图形,然后通过平均求值的方式计算正常分辨率的图形;另一个方法是对相邻像素值进行加权求和,得到最终像素值。
除了上述简单方法,其他复杂的真实感绘制技术还包括物体表面的各种光照建模方法,例如,简单光照模型、局部光照模型、全局光照模型等。从绘制算法上看,还包括模拟光线实际传播过程的光线跟踪算法,模拟能量传播的辐射度算法等。
2.实时动态绘制技术
实时动态绘制技术是指利用计算机为用户提供一个能从任意视点及方向实时观察三维场景的手段。它要求当用户视点改变时,图形显示速度必须跟得上视点的改变速度。所以,实时动态绘制技术所期望的是图像帧速高而等待时间短。一般来说,实时动态绘制技术可分为基于图形和基于图像的两种绘制技术。
1)基于图形的实时动态绘制技术
为了保证图形显示的刷新率不低于20~30帧/秒,除了在硬件方面采用高性能的计算机外,还必须选择合适的算法来降低场景的复杂度(即降低图形系统处理的多边形数目)。
目前,用于降低场景的复杂度以提高三维场景的动态显示速度的常用方法有场景分块、可见消隐、细节层次模型等。
场景分块是指把一个复杂的场景划分为多个相互之间几乎或完全不可见的子场景,在某一时刻只需对一个子场景进行绘制。例如,把一个建筑物按房间划分成多个子部分,当观察者处在某个房间时仅能看到该房间内的场景,所以只需绘制当前房间的模型即可。场景分块的方法能有效地减少在某一时刻所需要显示的多边形数目,从而有效降低了场景的复杂度。
可见消隐是根据给定的视点和视线方向,判断场景中哪些物体的表面是可见的,哪些是被遮挡而不可见的。使用此方法能使系统仅显示用户当前能“看见”的场景。当用户仅能看到整个场景中很小部分时,由于系统仅显示相应场景,此时可大大减少所需显示的多边形数目。
细节层次模型(Level Of Detail, LOD)是指对同一个场景或场景中的物体使用具有不同细节的描述方法得到的一组模型。在实时绘制时,可对场景中不同的物体或物体的不同部分采用不同的细节层次模型。如果一个物体离视点比较远,或者这个物体比较小,就要采用较粗的LOD模型绘制;反之,如果这个物体离视点比较近时,或者物体比较大时,就必须采用较精细的LOD模型来绘制。同样,如果场景中有运动的物体,也可以采用类似的方法,对处于运动速度快或处在运动中的物体,采用较粗的LOD模型;而对于静止的物体采用较精细的LOD模型。图2-12所示为LOD模型示意图。
图2-12 LOD模型
2)基于图像的实时动态绘制技术
基于图像的绘制技术(Image Based Rendering, IBR)是指针对某一场景,首先准备好一系列预先生成的场景画面;在进行场景漫游时,系统对接近于视点或视线方向的场景画面进行变换、插值与变形,从而快速得到当前视点处的场景画面。可见,这种技术完全摒弃了先建模、后确定光照效果的绘制方法,而是直接由一系列已知图像生成未知视角的图像。传统图形绘制技术均是面向景物几何而设计的,它具有一定的优点,例如,观察点和观察方向可以随意改变,不受限制。它同时也存在一些问题,如三维建模费时费力、工程量大;绘制过程涉及复杂的建模、消隐和光亮度计算,对计算机硬件有较高的要求;漫游时,在每个观察点及视角实时生成的数据量较大。因此,为实现在具有普通计算能力的计算机上实现真实感图形的实时绘制,近年来很多学者开始研究基于图像的实时动态绘制技术。该技术基于一些预先生成的图像(或环境映照)来生成不同视点的场景画面,与传统绘制技术相比,它有着鲜明的特点:
· 图形绘制独立于场景复杂性,仅与所要生成画面的分辨率有关。
· 预先存储的图像(或环境映照)既可以是计算机合成的,也可以是实际拍摄的画面,而且两者可以混合使用。
· 该绘制技术对计算资源的要求不高,因而可以在普通工作站和个人计算机上实现复杂场景的实时显示。
IBR技术是新兴的研究领域,它将改变人们对计算机图形学的传统认识。与基于图形的传统绘制技术相比,基于图像的实时绘制技术的优势在于对计算机的资源要求不高,可以在普通工作站和个人计算机上实现复杂场景的实时显示;绘制速度与场景复杂性无关,仅与所要生成画面的分辨率有关;图像中包含丰富的色彩信息,能够提高场景的真实感。目前,基于图像的绘制技术主要包括全景技术、图像插值及视图变换技术。
全景技术是指为一个场景中的某个观察点构造一幅全景图,用户在该观察点处浏览时,可以任意旋转视角,观察全景图的各个部分。全景图的准备可以采用图像拼接方法,例如,在观察点处用相机每旋转一定的角度拍摄一张照片,从而得到一组照片,再用各种工具软件将其拼接成一幅全景图。在场景浏览时,如果事先准备了多张全景图,那么还可以通过添加热点的方式进行视点切换。全景技术所形成的数据较小,对计算机配置要求低,适用于桌面式虚拟现实系统。
图像的插值及视图变换技术是指针对事先准备好的同一场景中的多张图像,计算出图像之间的关联关系,例如,像素点之间的对应关系、像素点的深度信息、图像的投影参数等,然后,根据这些信息并采用像素插值或三维变换方法,就可以构造出未知视点的图像。
3.三维立体显示技术
立体视觉对虚拟现实系统至关重要。两只眼睛的视差是实现立体视觉的基础。为了实现立体显示效果,首先需要对同一场景分别产生相应于左右眼的不同图像,让它们之间具有一定的视差;然后,借助相关技术,使左右双眼只能看到与之相应的图像。这样,用户才能感受到立体效果。
从时间特点上来讲,目前的立体显示技术可以分为同时显示(Frame Parallel)技术和分时显示(Frame Sequential)技术两类。同时显示是指在屏幕上同时显示出对应于左右双眼的两幅图像;分时显示是指以一定的频率交替显示两幅图像。
从设备特点上来讲,立体显示技术可以分为眼镜式和裸眼式立体显示两类。其中,眼镜式又可细分为主动立体眼镜和被动立体眼镜两类。主动立体眼镜是指有源眼镜,它通过“快门”来控制镜片的透光性,被动立体眼镜是指无源眼镜,它通过滤波技术来控制镜片的透光性,具体说明如下:
1)眼镜式立体显示
(1)彩色眼镜。这种眼镜属于被动立体眼镜,主要用于同时显示技术中。它的基本原理是,将左右眼图像用红绿两种补色在同一屏幕上同时显示出来,用户佩戴相应的补色眼镜(一个镜片为红色,另一个镜片为绿色)进行观察。这样每个滤色镜片吸收来自相反图像的光线,从而使双眼只看到同色的图像。这种方法会造成用户的色觉不平衡,产生视觉疲劳。
(2)偏振光眼镜。这种眼镜同样属于被动立体眼镜,主要用于同时显示技术中。它的基本原理是,将左右眼图像用偏振方向垂直的光线在同一屏幕上同时显示出来,用户佩戴相应的偏振光眼镜(两个镜片的偏振方向垂直)进行观察。这样每个镜片阻挡相反图像的光波,从而使双眼只能看到相应的图像。
(3)液晶光阀眼镜。这种眼镜属于主动立体眼镜,主要用于分时显示技术中。它的基本原理是,显示屏分时显示左右眼的视差图,并通过同步信号发射器及同步信号接收器控制观看者所佩戴的液晶光阀眼镜。当显示屏显示左(右)眼视差图像时,左(右)眼镜片透光而右(左)眼镜片不透光,这样双眼就只能看到相应的图像。这种方法的主要特点是要求显示器的帧频为普通显示器的两倍,一般需要达到120Hz。
(4)立体头盔。它也是眼镜的一种,这种方法是在观看者双眼前各放置一个显示屏,观看者的左右眼只能看到相应显示屏上的视差图像。头盔显示器可以进一步分为同时显示和分时显示两种,前者的价格更加昂贵。这种立体显示存在单用户性、显示屏分辨率低、头盔沉重以及易给眼睛带来不适感等固有缺点。
2)裸眼式立体显示
这种方法不需要用户佩戴任何装置,直接观看显示设备就可感受到立体效果,是立体显示的未来发展方向。这种方法又可细分为三类:光栅式自由立体显示、体显示、全息投影显示。
(1)光栅式自由立体显示。这种显示设备主要是由平板显示屏和光栅组合而成,左右眼视差图像按一定规律排列并显示在平板显示屏上,然后利用光栅的分光作用将左右眼视差图像的光线向不同方向传播。当观看者位于合适的观看区域时,其左右眼分别观看到相应的视差图像,从而获得立体视觉效果。常见的光栅类型包括狭缝光栅和柱透镜光栅两类。
狭缝光栅包括前置式狭缝光栅和后置式狭缝光栅两种,其原理分别如图2-13(a)、(b)所示。图2-13(a)中的狭缝光栅置于平板显示屏与观看者之间,观看者左右眼透过狭缝光栅的透光部分只能看到对应的左右眼视差图像,由此产生立体视觉。图2-13(b)的中狭缝光栅置于平板显示屏与背光源之间,用来将背光源调制成狭缝光源。当观看者位于合适的观看区域时,从左(右)眼处只能看到显示屏上的左(右)眼狭缝被光源照亮处。所以,观看者左右眼只能看到对应的视差图像,由此产生立体视觉。
图2-13 狭缝光栅立体显示原理
柱透镜光栅自立体显示原理如图2-14所示,它利用柱透镜阵列的折射作用,将左右眼视差图像分别提供给观看者的左右眼,从而产生立体视觉效果。
图2-14 柱透镜光栅立体显示原理
可见,光栅式自由立体显示技术的本质是使用光栅等滤光器替代立体眼镜。但是,由于两种光栅都是在平板显示器上同时显示两幅视差图像,所以会导致立体图像的分辨率降低。
(2)体显示。它的基本原理是通过特殊显示设备将三维物体的各个侧面图像同时显示出来。图2-15说明了一种基于扫描的体显示方法,它以半圆形显示屏作为投影面,通过一个电动机带动其高速旋转,形成一个半球形的成像区域。在旋转过程中,投影机会把同一物体的多幅不同侧面的二维图像闪投在显示屏上。这样,由于人眼的视觉暂留原理,就会看到一个似乎飘浮在空中的三维物体。
图2-15 基于扫描的体显示
图2-16说明了一种基于点阵的体显示方法。图中所示立方体是添加了发光物质的透明荧光体,它是由一系列点阵组成的。如果水平和垂直方向的两束不可见波长的光线同时聚焦到同一个荧光点上,那么该点就会发出可见光。显示立体图像时,首先需要把三维物体分解为一系列点阵,然后由两束光波依次扫描立方体中的各个荧光点,使得与三维物体相对应的荧光点发光,而其他荧光点不发光。这样,观看者就可以看到立体模型了。
图2-16 基于点阵的体显示
体显示方法可供多个观看者同时从不同角度观看同一立体场景,且兼顾了人眼的调节和会聚特性,不会引起视觉疲劳。
(3)全息投影显示。全息投影技术是利用光的干涉和衍射原理记录并再现真实物体三维图像的技术。首先,利用干涉原理记录物体的光波信息,这是拍摄过程,被摄物体在激光辐照下形成漫射式的物光束;另一部分激光作为参考光束射到全息底片上,和物光束叠加产生干涉;干涉条纹间的反差和间隔就将物体光波的全部信息记录下来。记录着干涉条纹的底片经过显影、定影等处理程序后,便成为一张全息图(或称全息照片)。
然后,利用衍射原理再现物体光波信息,这是成像过程。当胶片冲洗完成后,它就记录了原始物体上每一点的衍射光栅。如果将参考光束重新照射胶片时,那么原始物体上每一点的衍射光栅都可以衍射部分参考光线,重建出原始点的散射光线。当原始物体上所有点的衍射光栅所形成的衍射光线叠加在一起以后,就可以重建出整个物体的立体影像了。
近年来,随着计算机技术的发展和高分辨率电荷耦合成像器件(Charge Couple Device, CCD)的出现,数字全息技术得到迅速发展。与传统全息不同的是,数字全息用CCD代替普通全息材料记录全息图,用计算机模拟取代光学衍射来实现物体再现,实现了全息图记录、存储、处理和再现全过程的数字化。
全息投影技术再现的三维图像立体感强,具有真实的视觉效应。观看者可以在其前后左右观看,是真正意义上的立体显示。图2-17为HOLOCUBE公司开发的一款桌面全息显示器。
图2-17 桌面全息显示器
(二)听觉呈现技术
为使用户产生身临其境的感受,除视觉沉浸外,虚拟现实系统还应考虑听觉沉浸。三维虚拟声音的体验类似于一个球形空间,所以听者可以感受到整个球形空间任何地方的声音。在这个立体声场中,能根据三维虚拟声音的类型、强度和方位迅速做出相应判断,如图2-18所示。所以,我们把在虚拟场景中能使用户准确地判断出声源的精确位置、符合人们在真实境界中听觉方式的声音处理技术称为三维虚拟声音技术。
图2-18 三维虚拟声音示意图
1.三维虚拟声音的作用
在虚拟现实系统中加入与视觉并行的三维虚拟声音,一方面可以在很大程度上增强用户在虚拟世界中的沉浸感和交互性,另一方面也可以减弱大脑对于视觉的依赖性,降低沉浸感对视觉信息的要求,使用户体验视觉感受、听觉感受带来的双重信息享受。总体来说,声音的作用有如下几点:
· 声音可以作为用户和虚拟环境的一种交互方法,我们可以通过语音交流与虚拟世界取得联系。
· 增强用户体验,数据驱动的声音能传递对象的基本属性信息。
· 增强空间信息,特别是当空间超出了视觉范围,这时就完全要靠声音来识别。
2.三维虚拟声音的特征
三维虚拟声音主要的特征有全向三维定位特征、三维实时跟踪特性以及沉浸感与交互性。下面对它们分别进行介绍。
(1)全向三维定位特性是指在三维虚拟空间中把实际声音信号定位到特定虚拟专用源的能力。它能使用户准确判断出声源的位置,非常符合我们在现实生活中的听觉感受。举个例子来说,在现实生活中,一般都是先听到声响,然后再用眼睛去看这个地方,三维声音系统允许用户根据眼睛注视的方向以及根据所有可能的位置来监视和识别各种信息源,由此可以看出,三维声音系统可以利用粗调的机制引导较为细调的视觉能力的注意。在有视觉干扰的虚拟环境中,这一点尤其重要,这个时候,我们一般会通过听觉感受来引导肉眼对于目标位置的搜索,这种方法肯定要优于没有任何辅助而直接用肉眼搜索目标。即使是对处于视野中心的物体也是如此,这就是声学信号的全向特性。
(2)三维实时跟踪特性是指在三维虚拟空间中实时跟踪虚拟声源位置变化或景象变化的能力。比如说,当用户的头部转动时,虽然虚拟声源在虚拟场景中的绝对位置没有发生改变,但是它相对于用户头部的位置发生了变化,所以用户的听觉感受也应该发生变化,从而使用户感受到声源位置的固定性。而当虚拟发声物体移动位置时,用户的听觉感受也应随之改变。只有声音效果与实时变化的视觉相一致,才能产生视觉与听觉的叠加与同步效应。如果三维虚拟声音系统不具备这样的实时变化能力,看到的景象与听到的声音就会相互矛盾,听觉就会削弱视觉的沉浸感。
(3)三维虚拟声音的沉浸感就是指在三维场景中加入三维虚拟声音后,能够使用户在听觉与视觉交互的同时有身临其境的感觉,使人沉浸在虚拟世界中,有助于增强临场效果。三维声音的交互特性是指随用户的运动而产生的临场反应和实时响应的能力。
3.三维虚拟声音的建模方法
为了建立具有真实感的三维虚拟声音,一般从最简单的单耳声源开始,然后通过专门的三维虚拟声音系统的处理,生成分离的左右信号,分别传入听者的左右耳朵,以此来使听者准确定位声音的位置。构建一个完善的三维虚拟声音系统是一个极其复杂的过程。在设计时,必须仔细考虑听者精确定位声源所需的声学信息,认真分析确定声源方向的理论,这样才能为三维虚拟声音系统建立正确的人类听觉模型。目前,常用的听觉模型包括头部相关传递函数、房间声学模型、增强现实中的声音显示。
(1)头部相关传递函数。有很多致力于研究从声源发出的声波是如何传到人耳中的,声波从声源处到鼓膜处的变化其实可以看作是人的双耳对声波的滤波作用,它主要表现为人的头、躯干和外耳构成的复杂外形对声波产生的散射、折射和吸收作用,人们将声波从自由场传到鼓膜处的变换函数称之为与头部相关的传递函数HRTF(Head-Related Transfer Function)。由于每个人的头、耳的大小和形状各不相同,所以HRTF也因人而异。但是这些函数通常是从一群人获得的,因而它是一组平均特征值。获取HRTF的一般方法是:通过测量外界声音及人耳鼓膜上的声音频谱差异,即可获得声音在人耳附近发生的频谱波形;随后利用这些数据对声波与人耳的交互方式进行编码,即可得出HRTF,并确定双耳的信号传播延迟特点。
HRTF受到很多因素的影响,除了耳廓是最主要的因素,还有头部、耳道、肩膀、躯体等。这些影响因素可以分为两类,一种是与方向有关的因素,包括躯体影响、肩膀反射等;还有一种是与方向无关的因素,包括耳腔共振以及耳道与鼓膜的阻抗,示例图如2-19所示。
图2-19 头部相关传递函数原理
在虚拟现实系统中,当无回声声音信号由HRTF处理后,再通过与声源缠绕在一起的滤波器驱动一组耳机,就可以在传统耳机上形成有真实感的三维声音了。
(2)房间声学模型。房间声学模型的目标是计算第二声源的空间图,也就是为初始声源计算一组离散的第二声源(回声)。因为在声音的传输过程中,如果能够模拟声音与虚拟场景的反射效果,那么即使只有少量的一阶和二阶反射,也可以增加声音效果的真实性。对于第二声源可以由三个主要特性描述:距离上有延迟,相对第一声源的频谱有改变(空气吸收、表面发射等),与听者的入射方向有变化。
通常找到第二声源有两种方法:镜面图像法和射线跟踪法。镜面图像法能够保证找到所有几何正确的声音路径,不过由于该算法是递归的,所以不容易改变尺度。射线跟踪法使用一系列射线的反射和折射寻找第二声源,主要优点是即使处理时间短,也能产生不错的、合理的听觉效果,而且通过调节可用射线的数目,很容易以给定的帧频工作。
(3)增强现实中的声音显示。在许多应用中需要将计算机合成的声音信号与采样的真实声音信号叠加在一起,这种系统称为声音增强现实系统。真实的声音信号可以由定位麦克风采样得到,可以是当地环境的,也可以是借助遥控操作系统来自远地环境的。这个声音增强系统应该是能够接收任何环境中麦克风接收的信号,用来适应给定情况变化的这些信号,然后把它们叠加到虚拟现实系统提供的声音信号上。当前,声音增强现实系统最典型的应用是使沉浸在某种虚拟现实任务中的用户同时处理真实世界中的重要事件(如真实世界中的警告信号)。
4.三维虚拟声音技术有待解决的问题
就目前虚拟声音技术的发展情况来看,有些地方确实还存在着很多问题,列举如下:
(1)听觉定位的混淆问题。无论应用哪一种听觉定位方法,通过耳机定位,常常导致定位声音的前后颠倒和上下颠倒,所以会大大降低立体定位的性能和声源形象化,这主要是因为耳机掩蔽了听觉辅助器官的作用而形成的一个听觉定位锥。
(2)虚拟声音环境的可视化问题。虚拟声音通常与视频技术结合创造一个虚拟视听环境并达成视听同步。如果把视觉背景作为听觉补偿,可以提高声音环境的逼真度和降低听觉定位混淆。但是,如果听觉通道信息与视觉通道信息互相冲突,反而会降低虚拟视听环境的逼真度,所以,视听同步、头部运动补偿等问题都会影响虚拟声音。视听同步不仅包括声音事件与运动事件在时间上的同步,而且与声音控制系统参数保持同步映射关系。
(3)听觉心理学和听觉生理学的限制。相对而言,对外围听觉系统的研究比较充分,而对于听觉通路及中枢听觉的研究则很不充分。由于听觉系统的复杂性,目前对于它的机理还有很多不清楚。从生理学来看,听觉系统对于声音的频率、强度以及各种不同声音之间的关系表现出外围听觉系统处理的非线性,从而要用响度、音调以及临界带宽等加以描述。至于更高层次,要涉及听者的认知系统以及各种知识源的相互作用。因此,对于听觉系统还需进行广泛而深入的研究。