全国配曲音乐交流组

VR(虚拟现实)电影声音制作流程探析

CUCSoundSchool2019-06-20 04:53:57

本文引自《现代电影技术》2017年第一期。


VR(虚拟现实)电影通过对完整空间的展现,让观众获得身临虚拟现实空间的沉浸感。配合这一感受的声音制作采用三维环绕声格式,使其最大限度地接近人们在现实生活中的听音体验。耳机还放是VR电影声音还放的基本模式,通过头部相关传输函数(HRTF)编码,3D环绕声以两声道的虚拟环绕声形式重放出来,同时配合头部跟踪的数据回传进行调整,使声音不会随着观众头部的转动而转动,而是保持在原先的方位上,给观众带来声音独立于耳机存在的幻觉。VR电影的声音制作和传统电影类似,都包含前期录音和后期制作两个环节,后期制作完成后要输出声音母带,并与画面打包合成,才最终获得可用于发行的母版。除了与传统电影相类似的声音设计和录音、编辑、混录之外,虚拟现实电影的声音制作在工艺流程上要考虑如何拾取三维声场里的声音、声音编辑时如何观看3D画面、如何让声音和画面取得同步、在头部跟踪中声音如何跟随观影视角的变化、如何处理声音的空间感、如何进行三维声音混录、怎样监听,以及怎样输出声音母带、选取什么样的输出格式等。

 

拾音环节

 

对任何电影声音制作来说,前期拾音只是完成素材的准备。无论是同期录音时主要针对对白的拾音,还是单独进行的音响效果录音、环境声录音,以及后期制作时的ADR录音、拟音等,都是为声音编辑准备素材。在VR电影中,对声音所处声场信息的展现比传统电影的要求更高。这些声场信息可以通过后期制作来模拟,也可以在恰当的声场环境中直接记录。

针对直接记录现场三维声场空间信息,有三种拾音模式可供选择:一种是采用双耳拾音技术(Binaural Recording)的人工头或类人工头拾音,一种是采用声场合成技术的原场(Ambisonics)传声器拾音,还有一种是通过设置能记录水平和高度信息的环绕传声器组来拾音。

人工头拾音技术模拟人耳听觉的外部模型,在人工头模型的仿真耳道外部入口处或耳道内部末端放置拾音振膜,从而获得和人耳听觉类似的拾音效果。人工头拾音包含了相应的HRTF信息,该信息是人工头拾音能再现三维声场信息的关键,但该信息很难与观众自身的HRTF信息完全吻合,因此在声场重现上存在一些误差。另外,人工头拾音只适合于耳机还放,如果采用扬声器还放,会因为观众自身的HRTF信息带来声染色,导致声场信息的畸变。人工头拾音的优点是清晰明了、简单便携,操作也十分简便。现有的人工头话筒包括Neumann的KU 100(如图1所示),另外还有将振膜通过支架直接固定在真人头耳道位置的方式。毫无疑问对于这样的拾音,在拾音位置和方向的选择上要和相应的镜头进行完美匹配,比如在同一位置由摄影机模拟出双眼的视点,人工头模拟出双耳的听点,才能获得声画同步的效果。用于VR的人工头拾音技术可以采用多方向的双耳拾音,例如3Dio公司推出的四方双耳立体声话筒(QB:Quad-binaural-microphone)(如图2所示),它由指向0°、90°、180°、270°的4组双耳立体声话筒组成,从而与360°的画面视角相匹配。其局限在于它只对水平面提供了视角转换时的信号转换,在垂直面上没有这样的转换,从而使得垂直面上的视角变化没有相应的声音跟随,另外这种简化的人工头结构损失了大量的面部和轮廓干涉,影响了自然HRTF采集的完整性。

图1 Neumann KU 100双耳话筒  图2 3Dio FreeSpace Omni


原场传声器技术20世纪70年代诞生于英国,它是一种球形三维环绕声拾音技术。一阶原场系统(FOA:First Order Ambisonics)包含四个心形指向的振膜,分别指向左前(LF)、左后(LB)、右前(RF)、右后(RB),所拾取的原始信号叫做A格式(A-format),经过处理后得到的输出信号称为B格式(B-format)。B格式包含4个通道的信息,即全方向的W信号、前后深度的X信号、左右宽度的Y信号和上下高度的Z信号,形成一种扩展后的三维化M/S拾音制式,从而获得水平面和垂直面的三维信息,再解码成不同的方位信息来与监听扬声器的设置相匹配。这一拾音制式在适应不同格式的扬声器设置上具有很大的灵活度,它输出的信号可以根据需要解码成2.0、5.1、7.1甚至22.2的格式,也可以编码成Binaural格式。常见的原场话筒有带4个振膜的CoreSound TetraMic(如图3所示)、TSL SoundField SPS 200,以及具有更多通道数的高阶原场系统(HOA:High Order Ambisonics),例如Eigenmike Microphone(如图4所示)。一阶原场系统的缺点是空间解析度不够好,高阶系统通过增加通道数来解决这一问题,通道数和阶数的关系是:

 

通道数 = (阶数 + 1)2

 

因此,二阶原场系统包含9个通道,三阶原场系统包含16个通道,四阶原场系统包含25个通道,如此递增,使得系统输出的数据量大大增加,运算的复杂程度也大为提高。目前国外最高做到五阶原场话筒,用32个话筒采集,再通过矩阵变换获得36个输出通道。由于记录了全方位的信息,用于VR的原场系统可以支持任何方向的视角转换。   

图3 CoreSound TetraMic        图4 Eigenmike Microphone


Oculus公司的软件工程师Pete Stirling对双耳拾音技术(采用3Dio FreeSpace Omni)和声场合成技术(采用CoreSound TetraMic)做的拾音对比实验表明,在空间定位的精确度方面,四方双耳技术(QB:Quad Binaural)具有人工头拾音的一些缺点,比如由于人工头和真人头之间的差异导致空间定位的误差,以及前后方位的混淆,最大的问题出现在随着视角转换两组双耳话筒混合时的相位抵消,造成衔接部分声场定位不清晰。相比而言,声场合成技术没有这些问题,在三维空间的表现上有明显的优势,但一阶原场话筒的空间还原精确度不够高。在音质方面,双耳话筒会有一些染色,而原场话筒的频响非常平直。这两种方式都能很好地拾取现场反射声,获得良好的临场感。

利用上下两层传声器组合来拾音的方式类似于传统环绕声拾音方式,组合的模式也往往借鉴已有的三维扬声器布局,比如模仿7.1.4的布局,下层设置7只传声器,上层设置4只。这类拾音方式获得的声音声道分离度较好,但在声场整体感和连贯度上有所欠缺。

除了现场直接拾取3D环绕声之外,出于影片叙事的需要,往往还要补充拾取更多的声音细节。采用的方法和传统电影的拾音方法类似,比如利用有线或无线话筒拾音,单独补录一些音响效果用于后期的编辑等。通过现场拾音和补录,声音素材可能来源于双耳话筒、原场话筒以及非原场型的吊杆话筒、领夹式话筒、平板话筒、立体声话筒、环绕声话筒等。后期制作时,非3D格式的声音素材需要进行空间化处理,包括那些从音响资料库里挑选的素材,使之成为来自三维空间的声音(spatial audio)。

 

声音编辑与混录环节

 

VR电影声音编辑在技术上和传统电影声音编辑的不同之处在于:

  • 3D视频还放及其与音频工作站的同步

  • 音视频头部跟踪,即视频观看视角和音频听音角度的同步转换

  •  声音的空间化处理(需要相应的软件支持)

  • 声音母版的格式选择,比如Dolby Atmos Print Master、Ambisonics等

  • 实时双耳渲染(binaural rendering)监听

 

3D视频还放及与音频工作站的同步


用于声音编辑的3D视频还放,最好是将球形视频展开之后在电脑屏幕上还放,同时能利用鼠标调整观看角度。很显然带着头戴式显示设备是无法完成声音编辑的。支持上述还放模式的视频软件有KolorEyes(已被GoPro公司收购,也叫GoProVRPlayer)等。同时,Spook公司开发的SpookSyncVR软件,以OSC(Open Sound Control的简称)通信协议将Kolor Eyes播放器和Reaper音频工作站同步起来,不仅能进行播放时间码的同步,还能进行音视频视听角度的同步,使三维声音编辑变得非常直观、灵活,声音编辑师在编辑过程中可以实时了解还放效果。

图5 GoPro VR Player与Reaper相结合的VR音频编辑界面

 

在音视频视听角度的同步上,SpookSyncVR将视角方位参数与音频工作站上安装的ATK(Ambisonic Tool Kits)插件的听音方位参数锁定在一起。pitch对应于tumble,代表上下偏转,yaw对应于rotate,代表水平偏转。两者在360°范围内的变化完成了三维空间里的视听角度变化。参数锁定之后,音视频视听角度就能实现同步转换了,ATK上的空间显示界面能直观地体现出这种变化。

图6 SpookSync3D音视频同步界面

图7 Ambisonics Tool Kits插件的空间显示界面

 

有的软件可以播放展开的三维视频,但不支持调整观看角度,而是在视频上标出角度坐标,更精细的设计还包括标出网格让三维坐标更清晰。观看这样的视频,声音编辑师或混录师无法看到实时头部跟踪的画面,因此需要对不同坐标的画面有足够的经验,结合头戴式显示设备的观看体验来完成声音制作。杜比VR全景声工具里的Video Player可以和Pro Tools同步在一起,以等量矩形投影的模式在显示器上观看展开的画面,或者通过Oculus头戴式显示设备来观看3D视频,它可以把头部位置信息传送到杜比VR全景声工具的VR Renderer中,实时渲染出带头部跟踪的监听效果。

 

音频工作站及空间处理插件


VR声音编辑的工具首先是能支持多路母线输出的音频工作站以及能完成三维空间声音处理的插件。常见的音频工作站有ProToolsHD、Nuendo、Reaper等,只要能支持多路母线输出的工作站都可用于VR声音制作。ProTools最多支持8路(7.1)母线输出,Nuendo最多支持12路(11.1)母线输出,Reaper最多支持64路母线输出。Dolby Atmos需要的输出通路最少12路(7.1.4)、最多64路,Ambisonics需要的输出通路最少4路(一阶原场系统),Binaural需要两路输出通路。

VR声音制作的重点是在三维空间内的声像定位( 3D panning)和三维空间感处理(3D reverb),这两项工作需要单独的全景声制作软件来完成。用于VR的杜比全景声软件(Dolby Atmos for VR)包含四个工具,分别是Dolby Atmos Panner Plug-in for Pro Tools、VR Renderer、Monitor Application和Video Player,分别完成3D声像定位和元数据生成、将音频和元数据进行Dolby Atmos混录并输出编码为标准“杜比数字+”(Dolby Digital Plus)的双耳渲染信号、对所有混录对象的空间定位和电平动态进行监看、视频还放。其声像定位所参考的三维空间是以鞋盒(shoe box)为模型的矩形立方体,在此混录师可同时管理至多128路音频文件,其中音床(bed)部分为9.1声道的静态基础声,声道输出是固定的,对象(object)部分最多可使用其余的118路,这是单独的动态音频,可以在矩形立方体的任意位置完成定位、移动等。监听时可以分别对音床和对象进行监听,并能实现实时双耳渲染监听。输出的声音母版格式为DolbyAtmos Print Master,考虑到适配其他平台,杜比VR全景声工具还能将制作完成的全景声输出成Ambisonics的B格式(目前只支持一阶原场格式),以满足YouTube等平台的需求,以及形成5.1、7.1的下混输出。Dolby Atmos VR Panner作为ProTools的插件使用,而新版Nuendo已实现原生支持Dolby Atmos Panner功能,不需要安装插件,用一根网线和杜比渲染与母版处理设备(RMU)相连即可进行Atmos格式的声音制作。空间化方面,杜比VR全景声工具不带空间处理功能,需要用单独的混响器或房间仿真软件来形成空间感。AudioEase公司新近推出的Indoor旗舰卷积混响插件,最大可提供9路混响输出,原生支持Dolby Atmos格式。 

图8 用于Pro Tools的Dolby Atmos Panner插件

图9 Dolby Atmos VR Renderer

 

Ambisonics作为一种比较方便的中间格式,吸引了一些厂家来开发Ambisonics插件包。注意Ambisonics的三维空间模型和DolbyAtmos的三维空间模型有所不同,它是以听音位置为中心的圆球体,通过水平方位角(azimuth)、高度(elevation)、距离(distance)可以定义声像在球体中的位置,通过宽度(width)可以定义声像的大小。这两种空间模型会带来不同的听音感受,例如与听音者保持相同距离的前方声像移动,在Dolby Atmos格式中,声像可以从左到右沿直线移动,而在Ambisonics格式中,这个移动是以圆弧的轨迹进行。市面上已有的Ambisonics软件有二、三十种,用作工作站插件的有ATK(The Ambisonic Toolkit,用于Reaper工作站)、NoiseMakers公司的Ambi Pan和Ambi Head(有VST、AU、AAX格式)、其他公司的ambiXplugin suite(VST格式)、TOA plugins(VST格式)、Ambisonic Studio B2X plugins(VST、AU格式)、WigWare(VST格式)等。各插件的功能有一定区别,但都是围绕Ambisonics格式所做的声像定位、格式转换、双耳渲染监听等。ATK插件通过一阶原场信号编码(FoaEncode)能把普通话筒拾取的信号、合成信号等统统转换成Ambisonics格式,让不同来源的信号可以和原场话筒拾取的信号在同一个平台上编辑。要注意双耳话筒拾取的信号由于包含有自然HRTF,无法在编辑中与采用非双耳技术拾取的信号相兼容。ATK的空间成像工具(imaging)可以让声像沿某条轴线旋转,生成相对于轴线对称的镜像、控制声像大小等。在监听上,ATK可以通过一阶原场信号解码(FoaDecode)选择不同的解码监听,如binaural、标准双声道、5.0监听等。NoiseMakers的Ambi Pan将单声道或双声道立体声信号转换成AmbisonicsB格式以4路信号输出,能实现在三维空间的声像定位、声像宽度控制等。AmbiHead将制作完成的Ambisonics信号渲染成binaural信号,进行实时监听。渲染过程中还能进行空间宽度控制、沿Z轴的旋转等,它里面包含了专用于精确回放B格式信号的HRTF滤波器,也可以通过SOFA导入用户自定义的HRTF参数,达到个人化双耳渲染的目的。

图10 NoiseMakers Ambi Pan

图11 NoiseMakers Ambi Head

 

 NoiseMakers的PANO(Procedural Ambient Noise Orchestra)Player 是一款实时多通路音效合成软件,预置了液体、风、火的效果,还可以读取用Pano Composer制作的其他效果。它可以对这些效果实现从binaural信号到最多7.1路信号的输出,并在空间位置和宽度上进行实时控制。

NoiseMakers还推出了一款将普通单声道、立体声、环绕声(5.1或7.1)信号转换成双耳信号的插件Binauralizer,转换过程中可以控制声像的宽度和位置,选择内置的HRTF函数或导入用户HRTF函数。

图12 NoiseMakers Binauralizer

 

空间化方面,一些软件配备了Ambisonics格式的混响处理功能,如Wigware的Ambisonics Reverb混响包,可以方便地对原场信号添加混响。

另一个3D音频制作工具套装为Two Big Ears公司开发的3Dception Spatial Workstation。随着Two Big Ears公司被Facebook收购,该套装也改名为Facebook 360 Spatial Workstation,为VR影视及游戏免费提供制作工具、编码器和渲染引擎。3Dception作为ProTools、Reaper、Nuendo等工作站的插件使用,能完成声音的三维空间定位和房间仿真,并且支持Oculus Rift、三星Gear VR等主流头显,可以基于头部跟踪数据对音频进行实时渲染。

图13音频工作站结合3DCEPTION工具的音频制作流程

图14与ProTools配合使用的3DCEPTION插件

图15与Reaper配合使用的3DCEPTION插件以及支持头显的360度视频显示

 

Oculus Audio DAW Spatializer是一款VST或AAX格式的房间仿真插件,可以配合工作站使用来完成声音的空间化处理。房间仿真功能对声音所处的空间模型进行定义,设置出房间大小和墙面的吸声情况,结合3Dpanner的使用,调节X、Y、Z轴参数来完成声音在房间里的定位,以及通过声压级衰减来确定声源的距离,可以对基于对象的声源进行空间化处理,获得声音的方位感和空间感。

 

监听


VR电影多采用耳机监听,因此要对工作站的监听信号进行实时双耳渲染(biaural render)并输出给耳机。用于VR声音制作的插件提供了双耳渲染输出,渲染方法是通过加入现有的HRTF函数来仿真,使耳机中的声音重现编辑及混录时声音在三维空间中所处的位置。

双耳渲染可以在两个环节完成,一个在制作环节,一个在用户端。前者在VR声音制作插件中进行双耳渲染,比如杜比VR全景声插件的VR Renderer功能,还可以使用头戴式显示设备如Oculus Rift监看全景视频,同时进行头部跟踪仿真监听用户端不同视角的聆听效果。后者将双耳渲染功能集成在用户端app中,将接收到的源信号(Dolby Atmos信号、B格式信号等)进行双耳渲染,实现虚拟全景声监听和头部跟踪。

 

声音导出环节

 

编辑与混录完成之后,需要导出声音母版,母版格式如Dolby Atmos、Ambisonics等,然后与视频进行封装,得到MP4、MPEG-TS(Mpeg Transport Stream,也可简写为TS)、VPx等格式的文件送往播放平台。杜比VR全景声制作工具输出的母版格式为Dolby Atmos Print Master,然后将母版文件编码为“杜比数字+”,封装格式支持MP4和TS,也支持在线流媒体分发格式HLS(http live streaming)、Smooth Streaming和Mpeg DASH,其Atmos数据流包含了所有的对象信息,可以获得精确的定位。Ambisonics用于与相应格式的播放设备或平台兼容,由于它将音床和对象打包在一起,定位的精确度不如Atmos数据流。Dolby Atmos VR APP SDK中包含了双耳信号编码和回放渲染,可以接收陀螺仪的数据来获得不同听音角度的声音。

Ambisonics的母版输出有两种类型,即ambiX(WYZX标准)和FuMa(WXYZ标准),都是4通路的ambisonics数据流。将该数据流解码之后进行HRTF仿真,就获得了用于耳机监听的双耳信号。有的app播放平台集成了ambisonics解码和binaural编码功能,能直接接收ambisonics信号,如Youtube 360 videos支持ambiX信号,并将该格式的文件转换成binaural信号输出。

在HRTF编码上,由于ambisonics系统的特性,进行双耳渲染可以达到很好的效果。例如,将WXYZ信号进行解码,输出8路信号,即以圆心为中心向外伸展的八个均分方向(前、前左、左、后左、后、后右、右、前右),然后进入HRTF编码器,经HRTF函数处理后输出左、右耳信号给监听。德比大学(University of Derby)的Bruce Wiggins博士在ambisonics转binaural的仿真实验中发现,解码后的一阶原场信号对双耳时间差(ITD)的表现较好,但无法正确还原基于双耳声级差(ILD)的一些频率。解码后的三阶原场信号能准确还原各个角度的双耳时间差响应,对双耳声级差响应的还原程度有所提高,但在某些频率上还有出入。如果阶数增加到八阶,则对双耳时间差和双耳声级差响应都能准确还原。

图16 ambisonics转binaural信号流程

 

随着VR电影声音制作的发展,相关的制作工具还会进一步开发出来,现有的制作工具功能也会进一步完善和强化,比如音频工作站输出母线的增加、3D混响器的开发等,不同平台之间的交换性也会增强。从前期拾音、后期编辑混录到母版输出及平台播放的一体化解决方案,正在成为技术专家关注的重点。同时,游戏声音制作的工具和制作方式也开始为VR电影声音所借鉴,为声音的表现提供更加多元而便捷的途径。

 

参考网站:

http://www.dolby.com

http://www.locationsound.cn

http://soundoer.com

http://www.twobigears.com

http://www.asoundeffect.com

http://developer.oculus.com

http://www.spook.fm

http://www.core-sound.com