日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

沉浸式视听体验:全景声技术是如何实现的?

發(fā)布時(shí)間:2023/12/14 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 沉浸式视听体验:全景声技术是如何实现的? 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
大眾對(duì)沉浸體驗(yàn)的追求,不再僅局限于“視覺”。聲之切,境尤升。

隨著硬件技術(shù)的升級(jí)、軟件內(nèi)容的豐富以及5G網(wǎng)絡(luò)環(huán)境的優(yōu)化,推動(dòng)幾經(jīng)浮沉的VR產(chǎn)業(yè)走向正循環(huán)。

就在去年,「Roblox上市」、「Facebook更名為Meta」、「微軟收購(gòu)暴雪」等將元宇宙相關(guān)產(chǎn)業(yè)推向風(fēng)口,而Oculus Quest 2(VR一體機(jī))出貨量破千萬臺(tái)的成績(jī),更是一件將沉浸式VR從概念落地場(chǎng)景實(shí)踐的標(biāo)志性事件。

在本次云棲大會(huì)阿里云視頻云的8K VR視頻技術(shù)展臺(tái),體驗(yàn)者通過佩戴Pico VR頭顯,感受清晰度高達(dá)8K的360度VR視頻,實(shí)時(shí)捕捉超高清細(xì)節(jié)。

不僅如此,體驗(yàn)者還能以“聲”臨其境,感受令人驚艷的全景聲技術(shù)帶來的沉浸式視聽體驗(yàn)。

01“視”之外的沉浸之“聲”

「沉浸式視聽體驗(yàn)」一詞已多次出現(xiàn)在大眾視野,究竟什么是沉浸式視聽體驗(yàn)?zāi)?#xff1f;

“沉浸式視聽體驗(yàn)”是指通過視頻、音頻及特效系統(tǒng),構(gòu)建大視角、高畫質(zhì)、三維聲特性,從而具備畫面包圍和聲音環(huán)繞的主觀感受特征,觀眾在所處位置就能獲得周圍多方位的視覺、聽覺信息,帶來身臨其境之感。

聽覺作為僅次于視覺的重要感官通道,對(duì)沉浸式的視聽體驗(yàn)至關(guān)重要。隨著用戶對(duì)視聽體驗(yàn)的極致追求,在“視”之外,沉浸之“聲”技術(shù)應(yīng)運(yùn)而生。

「沉浸式音頻」是指能夠呈現(xiàn)空間的還音系統(tǒng)的聲輻射,至少能覆蓋觀眾的前、后、左、右、上五個(gè)方位。除此之外,還能真實(shí)地營(yíng)造出聲場(chǎng)的水平縱深和垂直高度,即從聽者角度能精準(zhǔn)地定位聲音的方向和位置。

從技術(shù)角度是如何實(shí)現(xiàn)呢?

其實(shí),真實(shí)世界的聲音來自環(huán)境的四面八方,人耳往往可以通過聲波的時(shí)間差、強(qiáng)度差、相位差、頻率差等辨別聲音的方位。

但現(xiàn)有的立體聲和5.1環(huán)繞聲只能呈現(xiàn)部分方向傳來的聲音信息,若想獲得聲音帶來的沉浸感,需要盡可能全方位再現(xiàn)真實(shí)世界的聲音,也需要一種沉浸式音頻技術(shù)來實(shí)現(xiàn)。

圖片來源于網(wǎng)絡(luò)

02一個(gè)「球面」的聲場(chǎng)?

沉浸式音頻主要技術(shù)有三大類: 基于聲道 Channel Based Audio(CBA)、基于對(duì)象Object Based Audio (OBA)、基于場(chǎng)景 Scene Based Audio(SBA)。

??基于聲道技術(shù)(CBA):在傳統(tǒng) 5.1 環(huán)繞聲的基礎(chǔ)上,增加了 4 個(gè)頂部聲道,通過增加聲道的方式來補(bǔ)充空間中的聲音信息,但只能呈現(xiàn)部分方向來的聲音信息。

??基于對(duì)象的技術(shù)(OBA):是目前主流技術(shù),并在電影領(lǐng)域已廣泛應(yīng)用,如 Dolby Atmos 全景聲。該技術(shù)會(huì)產(chǎn)生大量的數(shù)據(jù)和運(yùn)算,除了聲道的音頻外,還有關(guān)于聲源的元數(shù)據(jù)Metadata,即:聲源(位置/大小/速度/形狀等屬性)、聲源所在的環(huán)境(混響Reverb/回聲Reflection/衰減Attenuate/幾何形態(tài)等),該技術(shù)在VR領(lǐng)域只適合主機(jī)VR上的大型游戲,對(duì)于普通移動(dòng)端的硬件設(shè)備來講,算力及帶寬承載具有較大壓力。

??基于場(chǎng)景的技術(shù)(SBA):用來描述場(chǎng)景的聲場(chǎng),其核心的底層算法是Ambisonics 技術(shù),可被映射到任意揚(yáng)聲器布局中。Ambisonics技術(shù)的特點(diǎn)是:聲源貼在提前渲染好的全景球上,即所有聲源將被壓縮在了這個(gè)球上。

圖片來源于網(wǎng)絡(luò)

本文的音頻體驗(yàn)展示便采用了Ambisonics的錄制格式(文末體驗(yàn)DEMO)。

Ambisonics作為全景聲的一種錄取格式,在上世紀(jì)70年代就已經(jīng)問世,但一直沒有獲得商業(yè)上的成功。

隨著近幾年VR,AR等相關(guān)領(lǐng)域的興起,Ambisonics開始逐漸被討論。與其它多聲道環(huán)繞聲格式不同,Ambisonics傳輸通道不帶揚(yáng)聲器信號(hào),允許音頻工作者根據(jù)聲源方向而不是揚(yáng)聲器的位置來思考設(shè)計(jì),并且為聽眾提供了用于播放揚(yáng)聲器的布局和數(shù)量,因此,大大增加了靈活性。

Ambisonics音頻格式可以解碼任何揚(yáng)聲器陣列,并且可以完整地、不間斷地還原音源而不受任何特定編解碼播放系統(tǒng)的限制

下圖是一個(gè)一階的Ambisonics結(jié)構(gòu),4個(gè)MIC垂直部署在一個(gè)四面體上,播放效果與Dolby Atmos類似,但和Dolby Atmos不同的地方是:Dolby Atmos 只解決了半球的聲場(chǎng)。

而Ambisonics除了水平環(huán)繞聲音,還可以支持拾音位置或者聽眾上下的聲源,即整個(gè)球面的聲場(chǎng)。

圖片來源于網(wǎng)絡(luò)

03實(shí)現(xiàn)聲聲入耳的引擎:AliBiAudio

全景聲不僅僅是增加幾個(gè)聲道那么簡(jiǎn)單,而是把整個(gè)聲音系統(tǒng)架構(gòu)都顛覆了,從之前基于聲道來混音的技術(shù)上升為基于對(duì)象的音頻處理技術(shù),使人在環(huán)境中的聽覺感受與現(xiàn)場(chǎng)實(shí)際聲音一致。

將全景聲音頻重建成用戶可測(cè)聽的形式有兩種途徑,一種是多揚(yáng)聲器重建,即電影院或家庭影院中的音響系統(tǒng),其本質(zhì)是將全景聲音頻轉(zhuǎn)換到5.1.4或7.1.4格式;另一種是耳機(jī)重建,即將全景聲音頻通過雙耳渲染技術(shù)轉(zhuǎn)換為雙聲道音頻,并保留其全部空間信息。

相對(duì)于多揚(yáng)聲器重建,耳機(jī)重建成本低、易部署、效果好。

不言而喻,耳機(jī)重建全景聲音頻,需要一個(gè)雙耳渲染的過程,以此來通過兩個(gè)立體聲通道創(chuàng)建空間和維度的聽覺感知效果。

AliBiAudio 就是一個(gè)阿里自研的雙耳實(shí)時(shí)渲染引擎,結(jié)合頭部跟蹤坐標(biāo),可以達(dá)到人轉(zhuǎn)動(dòng),聲源位置不動(dòng)的效果。當(dāng)前雙耳渲染引擎,具有支持全平臺(tái)、多場(chǎng)景、易部署等特性。該引擎既可以部署在移動(dòng)端,也可以部署在云端,并支持三大場(chǎng)景的渲染。

??單聲道輸入:用于虛擬會(huì)議場(chǎng)景,可將不同位置的人,渲染在不同的角度發(fā)聲,通常部署在服務(wù)端。

??5.1/7.1 輸入:用于影視劇渲染,得到更逼真的環(huán)繞聲,類似優(yōu)酷中的“幀享”音效。既可以部署在端上(如:Apple Music 空間音頻),也可以部署在服務(wù)器上(如:作為媒體處理,將多聲道數(shù)據(jù)下混成2路數(shù)據(jù))。

??Ambisonics輸入:對(duì)Ambisonics格式進(jìn)行渲染,用于VR直播,VR點(diǎn)播,當(dāng)前部署在Aliplay中。

04如何讓聲音跟隨腦袋一起搖擺

??HRTF

雙耳渲染引擎的核心模塊是人頭傳遞函數(shù)HRTF( Head-related Transfer Function )。

每一方向都有兩個(gè)HRTF,分別代表音源到左右耳的房間沖擊響應(yīng),通過720度掃描可以得到一個(gè)球形的HRTF庫(kù),如下圖是一個(gè)ARI HRTF 數(shù)據(jù)庫(kù)的分布。

ARI HRTF 數(shù)據(jù)庫(kù)

在渲染時(shí),通過輸入的角度信息,先從數(shù)據(jù)庫(kù)中選出當(dāng)前角度的HRTF對(duì)。然后再將輸入數(shù)據(jù)分別和HRTF對(duì)進(jìn)行卷積得到左右耳信號(hào)。為了得到更逼真效果,還可以添加一定量的房間混響如下圖所示:

本項(xiàng)目對(duì)大量HRTF庫(kù)進(jìn)行篩選,獲取到一個(gè)最優(yōu)的數(shù)據(jù)庫(kù)。

??Ambisonics數(shù)據(jù)格式

Ambisonics 的基礎(chǔ)功能是讓來自不同方向點(diǎn)聲源,作為360度的球面來處理,這個(gè)中心點(diǎn),就是麥克風(fēng)放的位置。當(dāng)前廣泛用于VR 和 360 度全景視頻的Ambisonics 格式,是一個(gè)叫做Ambisonics B-format的4聲道(還有另一種格式叫A-format)。由W, X, Y and Z組成。對(duì)應(yīng)著360度球面的,中心,左右,前后,上下。

  • W 是一個(gè)全向
  • X 是一個(gè)雙極 8 字指向,代表前后
  • Y 是一個(gè)雙極 8 字指向,代表左右
  • Z 是一個(gè)雙極 8 字指向,代表上下

B-format 有兩種格式分別是ambix 和fuma(它們只是排列順序不同),而A-format 代表4個(gè)mic 采集的原始數(shù)據(jù)。B-format和A-format的關(guān)系如下:

圖片來源于網(wǎng)絡(luò)

??頭部跟蹤

該技術(shù)利用了某些特定款式耳機(jī)中的傳感器信息,如:加速度計(jì)和陀螺儀,從而更好地跟蹤頭部運(yùn)動(dòng),并做出相應(yīng)的音頻調(diào)整。

Apple已經(jīng)從 iOS 15 開始通過兼容耳機(jī)帶來支持頭部跟蹤的空間音頻功能,目前Android 13的發(fā)布預(yù)覽版已完全支持在兼容設(shè)備上使用頭部跟蹤的空間音頻。本次云棲大會(huì)的展臺(tái)體驗(yàn)便主要利用了Pico頭顯設(shè)備中陀螺儀的信息。

圖片來源于網(wǎng)絡(luò)

05一起「聲」臨其境

「佩戴耳機(jī)」體驗(yàn)全景聲,效果更好哦!

現(xiàn)場(chǎng)體驗(yàn)中,聲音的變化會(huì)隨著頭部的轉(zhuǎn)動(dòng)而轉(zhuǎn)動(dòng),本次線上DEMO體驗(yàn)將依靠手動(dòng)界面移動(dòng)來模擬頭部轉(zhuǎn)動(dòng)。

01聽:無人機(jī)掠過頭頂

無人機(jī)逐漸升起從頭頂掠過,當(dāng)視角跟隨(模擬)無人機(jī)時(shí),聲音相應(yīng)地實(shí)時(shí)變化。

02聽:滴答滴答

聆聽水滴的同時(shí),發(fā)現(xiàn)左方有無人機(jī)的聲音,視角隨聲而轉(zhuǎn),一路跟隨,感受無人機(jī)由近及遠(yuǎn)的變化。

03聽:沉浸游園

主持人在介紹園區(qū)時(shí),用戶向四周左右觀看(模擬),在此過程中,主持人的聲音呈現(xiàn)與他在你視角的位置始終保持對(duì)應(yīng)。

04聽:PING PANG之聲

沉浸式場(chǎng)景怎能少了運(yùn)動(dòng)!一轉(zhuǎn)頭,乒乓之聲已被“拋之腦后”。

06音頻的未來,炫到無法想象

除此之外,全景聲雙耳渲染技術(shù)還可運(yùn)用于多個(gè)場(chǎng)景,帶來沉浸視聽的無限想象力。

??VR演唱會(huì)

現(xiàn)場(chǎng)混合360度視頻和全景聲音頻, 同時(shí)將數(shù)據(jù)傳輸?shù)较鄳?yīng)的移動(dòng)平臺(tái),并進(jìn)行實(shí)時(shí)直播。讓觀眾可以達(dá)到“不在現(xiàn)場(chǎng),勝似現(xiàn)場(chǎng)”的感覺。

??沉浸式影院

也可以稱之為沉浸式投影,是一種成熟的高度沉浸式虛擬現(xiàn)實(shí)系統(tǒng)。它將高分辨率的立體投影技術(shù)、三維計(jì)算機(jī)圖形技術(shù)和音響技術(shù)等有機(jī)地結(jié)合在一起,產(chǎn)生一個(gè)完全沉浸式的虛擬環(huán)境,大大增加觀影的沉浸感。

??智慧教育

沉浸式教學(xué)模式逐漸受到教育界的關(guān)注。例如,IBM研究院和倫斯勒理工學(xué)院聯(lián)合開發(fā)的“認(rèn)知沉浸室 ”,它能讓學(xué)生置身于中國(guó)的餐館、商場(chǎng)、園林等虛擬場(chǎng)景,與AI機(jī)器人練習(xí)漢語對(duì)話,大大提升了學(xué)生的學(xué)習(xí)興趣和專注力。

??虛擬會(huì)議

以Facebook基于VR開發(fā)的虛擬會(huì)議為例。而為了更貼近現(xiàn)實(shí),Workrooms還加入了沉浸音頻功能,讓用戶交談時(shí),聲音的發(fā)出的方向跟他們所處的房間位置一致,從而進(jìn)一步增加參會(huì)者的沉浸感。

圖片來源于網(wǎng)絡(luò)

未來的沉浸音頻技術(shù)將如何發(fā)展?

以雙耳渲染引擎的核心模塊HRTF為例來說,當(dāng)前的HRTF模型,是一個(gè)固定模型,無法適應(yīng)不同人的聲音感知差異,尤其在正前方的外化能力還不夠好。若想得到更逼真的聲音效果,需對(duì)HRTF進(jìn)行進(jìn)一步優(yōu)化,使其適應(yīng)每個(gè)人的個(gè)體差異性

比如:根據(jù)每個(gè)人的人頭大小,耳廓信息以及肩膀的形狀獨(dú)立建模。在國(guó)外HRTF的建模與個(gè)性化發(fā)展已經(jīng)成為趨勢(shì):

3月開始,杜比支持個(gè)性化HRTF的定制。

圖片來源于網(wǎng)絡(luò)

9月開始,iPhone升級(jí)了ios16,通過人臉掃描,可以定制自己的HRTF。

圖片來源于網(wǎng)絡(luò)

此外,用機(jī)器學(xué)習(xí)的方法,將面部,耳部圖片,轉(zhuǎn)化成HRTF也在火熱研究中。

未來,阿里云視頻云將繼續(xù)探索基于深度學(xué)習(xí)與信號(hào)處理的的音頻技術(shù),為VR超高清視頻直播帶來以「聲」臨其境的超沉浸之感。

參考文獻(xiàn):

[1] 5G 高新視頻—沉浸式視頻技術(shù)白皮書

[2] https://m.fx361.com/news/2018/0326/3298705.html

[3] https://3g.163.com/dy/article/ELBCI2OG053290QL.html?clickfrom=subscribe

[4] https://www.birtv.com/Magazine/content/?246.html

[5] https://m.midifan.com/article_body.php?id=6201

[6] https://sound.media.mit.edu/resources/KEMAR.html

[7] https://juiwang.com/assets/projects/hrtf_nn_bem/hrtf_nn_bem.pdf

[8] https://www.tvoao.com/a/208656.aspx

總結(jié)

以上是生活随笔為你收集整理的沉浸式视听体验:全景声技术是如何实现的?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。