當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

沉浸式视听体验：全景声技术是如何实现的？

發(fā)布時(shí)間：2023/12/14 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了沉浸式视听体验：全景声技术是如何实现的？小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

大眾對(duì)沉浸體驗(yàn)的追求，不再僅局限于“視覺”。聲之切，境尤升。

隨著硬件技術(shù)的升級(jí)、軟件內(nèi)容的豐富以及5G網(wǎng)絡(luò)環(huán)境的優(yōu)化，推動(dòng)幾經(jīng)浮沉的VR產(chǎn)業(yè)走向正循環(huán)。

就在去年，「Roblox上市」、「Facebook更名為Meta」、「微軟收購(gòu)暴雪」等將元宇宙相關(guān)產(chǎn)業(yè)推向風(fēng)口，而Oculus Quest 2（VR一體機(jī)）出貨量破千萬臺(tái)的成績(jī)，更是一件將沉浸式VR從概念落地場(chǎng)景實(shí)踐的標(biāo)志性事件。

在本次云棲大會(huì)阿里云視頻云的8K VR視頻技術(shù)展臺(tái)，體驗(yàn)者通過佩戴Pico VR頭顯，感受清晰度高達(dá)8K的360度VR視頻，實(shí)時(shí)捕捉超高清細(xì)節(jié)。

不僅如此，體驗(yàn)者還能以“聲”臨其境，感受令人驚艷的全景聲技術(shù)帶來的沉浸式視聽體驗(yàn)。

01“視”之外的沉浸之“聲”

「沉浸式視聽體驗(yàn)」一詞已多次出現(xiàn)在大眾視野，究竟什么是沉浸式視聽體驗(yàn)?zāi)?#xff1f;

“沉浸式視聽體驗(yàn)”是指通過視頻、音頻及特效系統(tǒng)，構(gòu)建大視角、高畫質(zhì)、三維聲特性，從而具備畫面包圍和聲音環(huán)繞的主觀感受特征，觀眾在所處位置就能獲得周圍多方位的視覺、聽覺信息，帶來身臨其境之感。

聽覺作為僅次于視覺的重要感官通道，對(duì)沉浸式的視聽體驗(yàn)至關(guān)重要。隨著用戶對(duì)視聽體驗(yàn)的極致追求，在“視”之外，沉浸之“聲”技術(shù)應(yīng)運(yùn)而生。

「沉浸式音頻」是指能夠呈現(xiàn)空間的還音系統(tǒng)的聲輻射，至少能覆蓋觀眾的前、后、左、右、上五個(gè)方位。除此之外，還能真實(shí)地營(yíng)造出聲場(chǎng)的水平縱深和垂直高度，即從聽者角度能精準(zhǔn)地定位聲音的方向和位置。

從技術(shù)角度是如何實(shí)現(xiàn)呢？

其實(shí)，真實(shí)世界的聲音來自環(huán)境的四面八方，人耳往往可以通過聲波的時(shí)間差、強(qiáng)度差、相位差、頻率差等辨別聲音的方位。

但現(xiàn)有的立體聲和5.1環(huán)繞聲只能呈現(xiàn)部分方向傳來的聲音信息，若想獲得聲音帶來的沉浸感，需要盡可能全方位再現(xiàn)真實(shí)世界的聲音，也需要一種沉浸式音頻技術(shù)來實(shí)現(xiàn)。

圖片來源于網(wǎng)絡(luò)

02一個(gè)「球面」的聲場(chǎng)？

沉浸式音頻主要技術(shù)有三大類: 基于聲道 Channel Based Audio（CBA）、基于對(duì)象Object Based Audio （OBA）、基于場(chǎng)景 Scene Based Audio（SBA）。

??基于聲道技術(shù)（CBA）：在傳統(tǒng) 5.1 環(huán)繞聲的基礎(chǔ)上，增加了 4 個(gè)頂部聲道，通過增加聲道的方式來補(bǔ)充空間中的聲音信息，但只能呈現(xiàn)部分方向來的聲音信息。

??基于對(duì)象的技術(shù)（OBA）：是目前主流技術(shù)，并在電影領(lǐng)域已廣泛應(yīng)用，如 Dolby Atmos 全景聲。該技術(shù)會(huì)產(chǎn)生大量的數(shù)據(jù)和運(yùn)算，除了聲道的音頻外，還有關(guān)于聲源的元數(shù)據(jù)Metadata，即：聲源（位置/大小/速度/形狀等屬性）、聲源所在的環(huán)境（混響Reverb/回聲Reflection/衰減Attenuate/幾何形態(tài)等），該技術(shù)在VR領(lǐng)域只適合主機(jī)VR上的大型游戲，對(duì)于普通移動(dòng)端的硬件設(shè)備來講，算力及帶寬承載具有較大壓力。

??基于場(chǎng)景的技術(shù)（SBA）：用來描述場(chǎng)景的聲場(chǎng)，其核心的底層算法是Ambisonics 技術(shù),可被映射到任意揚(yáng)聲器布局中。Ambisonics技術(shù)的特點(diǎn)是：聲源貼在提前渲染好的全景球上，即所有聲源將被壓縮在了這個(gè)球上。

圖片來源于網(wǎng)絡(luò)

本文的音頻體驗(yàn)展示便采用了Ambisonics的錄制格式（文末體驗(yàn)DEMO）。

Ambisonics作為全景聲的一種錄取格式，在上世紀(jì)70年代就已經(jīng)問世，但一直沒有獲得商業(yè)上的成功。

隨著近幾年VR，AR等相關(guān)領(lǐng)域的興起，Ambisonics開始逐漸被討論。與其它多聲道環(huán)繞聲格式不同，Ambisonics傳輸通道不帶揚(yáng)聲器信號(hào)，允許音頻工作者根據(jù)聲源方向而不是揚(yáng)聲器的位置來思考設(shè)計(jì)，并且為聽眾提供了用于播放揚(yáng)聲器的布局和數(shù)量，因此，大大增加了靈活性。

Ambisonics音頻格式可以解碼任何揚(yáng)聲器陣列，并且可以完整地、不間斷地還原音源而不受任何特定編解碼播放系統(tǒng)的限制。

下圖是一個(gè)一階的Ambisonics結(jié)構(gòu)，4個(gè)MIC垂直部署在一個(gè)四面體上，播放效果與Dolby Atmos類似，但和Dolby Atmos不同的地方是：Dolby Atmos 只解決了半球的聲場(chǎng)。

而Ambisonics除了水平環(huán)繞聲音，還可以支持拾音位置或者聽眾上下的聲源，即整個(gè)球面的聲場(chǎng)。

圖片來源于網(wǎng)絡(luò)

03實(shí)現(xiàn)聲聲入耳的引擎：AliBiAudio

全景聲不僅僅是增加幾個(gè)聲道那么簡(jiǎn)單，而是把整個(gè)聲音系統(tǒng)架構(gòu)都顛覆了，從之前基于聲道來混音的技術(shù)上升為基于對(duì)象的音頻處理技術(shù)，使人在環(huán)境中的聽覺感受與現(xiàn)場(chǎng)實(shí)際聲音一致。

將全景聲音頻重建成用戶可測(cè)聽的形式有兩種途徑，一種是多揚(yáng)聲器重建，即電影院或家庭影院中的音響系統(tǒng)，其本質(zhì)是將全景聲音頻轉(zhuǎn)換到5.1.4或7.1.4格式；另一種是耳機(jī)重建，即將全景聲音頻通過雙耳渲染技術(shù)轉(zhuǎn)換為雙聲道音頻，并保留其全部空間信息。

相對(duì)于多揚(yáng)聲器重建，耳機(jī)重建成本低、易部署、效果好。

不言而喻，耳機(jī)重建全景聲音頻，需要一個(gè)雙耳渲染的過程，以此來通過兩個(gè)立體聲通道創(chuàng)建空間和維度的聽覺感知效果。

AliBiAudio 就是一個(gè)阿里自研的雙耳實(shí)時(shí)渲染引擎，結(jié)合頭部跟蹤坐標(biāo)，可以達(dá)到人轉(zhuǎn)動(dòng)，聲源位置不動(dòng)的效果。當(dāng)前雙耳渲染引擎，具有支持全平臺(tái)、多場(chǎng)景、易部署等特性。該引擎既可以部署在移動(dòng)端，也可以部署在云端，并支持三大場(chǎng)景的渲染。

??單聲道輸入：用于虛擬會(huì)議場(chǎng)景，可將不同位置的人，渲染在不同的角度發(fā)聲，通常部署在服務(wù)端。

??5.1/7.1 輸入：用于影視劇渲染，得到更逼真的環(huán)繞聲，類似優(yōu)酷中的“幀享”音效。既可以部署在端上（如：Apple Music 空間音頻），也可以部署在服務(wù)器上（如：作為媒體處理，將多聲道數(shù)據(jù)下混成2路數(shù)據(jù)）。

??Ambisonics輸入：對(duì)Ambisonics格式進(jìn)行渲染，用于VR直播，VR點(diǎn)播，當(dāng)前部署在Aliplay中。

04如何讓聲音跟隨腦袋一起搖擺

??HRTF

雙耳渲染引擎的核心模塊是人頭傳遞函數(shù)HRTF（ Head-related Transfer Function ）。

每一方向都有兩個(gè)HRTF，分別代表音源到左右耳的房間沖擊響應(yīng)，通過720度掃描可以得到一個(gè)球形的HRTF庫(kù)，如下圖是一個(gè)ARI HRTF 數(shù)據(jù)庫(kù)的分布。

ARI HRTF 數(shù)據(jù)庫(kù)

在渲染時(shí)，通過輸入的角度信息，先從數(shù)據(jù)庫(kù)中選出當(dāng)前角度的HRTF對(duì)。然后再將輸入數(shù)據(jù)分別和HRTF對(duì)進(jìn)行卷積得到左右耳信號(hào)。為了得到更逼真效果，還可以添加一定量的房間混響如下圖所示：

本項(xiàng)目對(duì)大量HRTF庫(kù)進(jìn)行篩選，獲取到一個(gè)最優(yōu)的數(shù)據(jù)庫(kù)。

??Ambisonics數(shù)據(jù)格式

Ambisonics 的基礎(chǔ)功能是讓來自不同方向點(diǎn)聲源，作為360度的球面來處理，這個(gè)中心點(diǎn)，就是麥克風(fēng)放的位置。當(dāng)前廣泛用于VR 和 360 度全景視頻的Ambisonics 格式，是一個(gè)叫做Ambisonics B-format的4聲道（還有另一種格式叫A-format）。由W, X, Y and Z組成。對(duì)應(yīng)著360度球面的，中心，左右，前后，上下。

W 是一個(gè)全向
X 是一個(gè)雙極 8 字指向，代表前后
Y 是一個(gè)雙極 8 字指向，代表左右
Z 是一個(gè)雙極 8 字指向，代表上下

B-format 有兩種格式分別是ambix 和fuma（它們只是排列順序不同），而A-format 代表4個(gè)mic 采集的原始數(shù)據(jù)。B-format和A-format的關(guān)系如下：

圖片來源于網(wǎng)絡(luò)

??頭部跟蹤

該技術(shù)利用了某些特定款式耳機(jī)中的傳感器信息，如：加速度計(jì)和陀螺儀，從而更好地跟蹤頭部運(yùn)動(dòng)，并做出相應(yīng)的音頻調(diào)整。

Apple已經(jīng)從 iOS 15 開始通過兼容耳機(jī)帶來支持頭部跟蹤的空間音頻功能，目前Android 13的發(fā)布預(yù)覽版已完全支持在兼容設(shè)備上使用頭部跟蹤的空間音頻。本次云棲大會(huì)的展臺(tái)體驗(yàn)便主要利用了Pico頭顯設(shè)備中陀螺儀的信息。

圖片來源于網(wǎng)絡(luò)

05一起「聲」臨其境

「佩戴耳機(jī)」體驗(yàn)全景聲，效果更好哦！

現(xiàn)場(chǎng)體驗(yàn)中，聲音的變化會(huì)隨著頭部的轉(zhuǎn)動(dòng)而轉(zhuǎn)動(dòng)，本次線上DEMO體驗(yàn)將依靠手動(dòng)界面移動(dòng)來模擬頭部轉(zhuǎn)動(dòng)。

01聽：無人機(jī)掠過頭頂

無人機(jī)逐漸升起從頭頂掠過，當(dāng)視角跟隨（模擬）無人機(jī)時(shí)，聲音相應(yīng)地實(shí)時(shí)變化。

02聽：滴答滴答

聆聽水滴的同時(shí)，發(fā)現(xiàn)左方有無人機(jī)的聲音，視角隨聲而轉(zhuǎn)，一路跟隨，感受無人機(jī)由近及遠(yuǎn)的變化。

03聽：沉浸游園

主持人在介紹園區(qū)時(shí)，用戶向四周左右觀看（模擬），在此過程中，主持人的聲音呈現(xiàn)與他在你視角的位置始終保持對(duì)應(yīng)。

04聽：PING PANG之聲

沉浸式場(chǎng)景怎能少了運(yùn)動(dòng)！一轉(zhuǎn)頭，乒乓之聲已被“拋之腦后”。

06音頻的未來，炫到無法想象

除此之外，全景聲雙耳渲染技術(shù)還可運(yùn)用于多個(gè)場(chǎng)景，帶來沉浸視聽的無限想象力。

??VR演唱會(huì)

現(xiàn)場(chǎng)混合360度視頻和全景聲音頻，同時(shí)將數(shù)據(jù)傳輸?shù)较鄳?yīng)的移動(dòng)平臺(tái)，并進(jìn)行實(shí)時(shí)直播。讓觀眾可以達(dá)到“不在現(xiàn)場(chǎng)，勝似現(xiàn)場(chǎng)”的感覺。

??沉浸式影院

也可以稱之為沉浸式投影，是一種成熟的高度沉浸式虛擬現(xiàn)實(shí)系統(tǒng)。它將高分辨率的立體投影技術(shù)、三維計(jì)算機(jī)圖形技術(shù)和音響技術(shù)等有機(jī)地結(jié)合在一起，產(chǎn)生一個(gè)完全沉浸式的虛擬環(huán)境，大大增加觀影的沉浸感。

??智慧教育

沉浸式教學(xué)模式逐漸受到教育界的關(guān)注。例如，IBM研究院和倫斯勒理工學(xué)院聯(lián)合開發(fā)的“認(rèn)知沉浸室 ”，它能讓學(xué)生置身于中國(guó)的餐館、商場(chǎng)、園林等虛擬場(chǎng)景，與AI機(jī)器人練習(xí)漢語對(duì)話，大大提升了學(xué)生的學(xué)習(xí)興趣和專注力。

??虛擬會(huì)議

以Facebook基于VR開發(fā)的虛擬會(huì)議為例。而為了更貼近現(xiàn)實(shí)，Workrooms還加入了沉浸音頻功能，讓用戶交談時(shí)，聲音的發(fā)出的方向跟他們所處的房間位置一致，從而進(jìn)一步增加參會(huì)者的沉浸感。

圖片來源于網(wǎng)絡(luò)

未來的沉浸音頻技術(shù)將如何發(fā)展？

以雙耳渲染引擎的核心模塊HRTF為例來說，當(dāng)前的HRTF模型，是一個(gè)固定模型，無法適應(yīng)不同人的聲音感知差異，尤其在正前方的外化能力還不夠好。若想得到更逼真的聲音效果，需對(duì)HRTF進(jìn)行進(jìn)一步優(yōu)化，使其適應(yīng)每個(gè)人的個(gè)體差異性。

比如：根據(jù)每個(gè)人的人頭大小，耳廓信息以及肩膀的形狀獨(dú)立建模。在國(guó)外HRTF的建模與個(gè)性化發(fā)展已經(jīng)成為趨勢(shì)：

3月開始，杜比支持個(gè)性化HRTF的定制。

圖片來源于網(wǎng)絡(luò)

9月開始，iPhone升級(jí)了ios16，通過人臉掃描，可以定制自己的HRTF。

圖片來源于網(wǎng)絡(luò)

此外，用機(jī)器學(xué)習(xí)的方法，將面部，耳部圖片，轉(zhuǎn)化成HRTF也在火熱研究中。

未來，阿里云視頻云將繼續(xù)探索基于深度學(xué)習(xí)與信號(hào)處理的的音頻技術(shù)，為VR超高清視頻直播帶來以「聲」臨其境的超沉浸之感。

參考文獻(xiàn)：

[1] 5G 高新視頻—沉浸式視頻技術(shù)白皮書

[2] https://m.fx361.com/news/2018/0326/3298705.html

[3] https://3g.163.com/dy/article/ELBCI2OG053290QL.html?clickfrom=subscribe

[4] https://www.birtv.com/Magazine/content/?246.html

[5] https://m.midifan.com/article_body.php?id=6201

[6] https://sound.media.mit.edu/resources/KEMAR.html

[7] https://juiwang.com/assets/projects/hrtf_nn_bem/hrtf_nn_bem.pdf

[8] https://www.tvoao.com/a/208656.aspx

總結(jié)

以上是生活随笔為你收集整理的沉浸式视听体验：全景声技术是如何实现的？的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： c语言运算程序示例,C语言算术运算示例程
下一篇： Octave获取使用imnoise函数