沉浸式视频技术应用与挑战
正文字?jǐn)?shù):4766 ?閱讀時(shí)長(zhǎng):7分鐘
隨著5G時(shí)代的到來,低延時(shí)、超高清視頻將成為未來幾年內(nèi)視頻發(fā)展的主流趨勢(shì)之一,沉浸式視頻或?qū)⒂瓉砥浔l(fā)期。金山云 CDN及視頻云產(chǎn)品中心高級(jí)技術(shù)總監(jiān) 蔡媛在線上分享中詳細(xì)介紹了沉浸式視頻發(fā)展的技術(shù)壁壘、挑戰(zhàn)及具體應(yīng)用場(chǎng)景實(shí)踐。
文 /?蔡媛
整理?/ LiveVideoStack
直播回放:
https://mudu.tv/live/watch/general?id=o6deva3l&referVisitorId=28133124&from=singlemessage&time=1611910296708
大家好,我是金山云CDN及視頻云產(chǎn)品中心的蔡媛,本次我將給大家分享的主題是沉浸式視頻傳輸。
1
全球視頻云流量市場(chǎng)預(yù)測(cè)
上圖是2019全球視頻云流量市場(chǎng)的預(yù)估數(shù)據(jù)。從2017年到2022年,整個(gè)視頻流量以及CDN市場(chǎng)增長(zhǎng)非常樂觀。到2022年整個(gè)視頻CDN的流量可能已經(jīng)達(dá)到252EB的數(shù)量級(jí)。在此之中視頻占比逐年上升到2021年預(yù)計(jì)整個(gè)視頻的占比超過80%。隨著5G的催生,超高清視頻、低延遲視頻的發(fā)展,沉浸式視頻業(yè)務(wù)將會(huì)迎來較大爆發(fā)期,成為視頻發(fā)展的主力軍。
2
疫情期間音視頻通話流量
通過疫情催生,可以看出在整個(gè)視頻流量上,音視頻通話的流量猛增200%以上。與此同時(shí),移動(dòng)視頻的流量增長(zhǎng)超過60%。上圖是在今年疫情期間音視頻會(huì)議應(yīng)用的下載,下載量暴增超過十幾倍以上。黃色部分是ZOOM下載的增長(zhǎng),可以看出它的增長(zhǎng)超過了29倍左右。淺藍(lán)色部分是谷歌Hangouts Meet,超過了百分之二十幾的增長(zhǎng)。由此看出,在疫情期間音視頻流量增長(zhǎng)實(shí)際上遠(yuǎn)遠(yuǎn)超過預(yù)期。
3
移動(dòng)通信下的視頻趨勢(shì)
在電子時(shí)代,當(dāng)時(shí)網(wǎng)絡(luò)狀況只有100KB左右網(wǎng)絡(luò)帶寬。當(dāng)時(shí)我們更多的是在電視上觀看視頻。到了互聯(lián)網(wǎng)1.0的時(shí)代,我們開始在PC上觀看視頻包括點(diǎn)播,當(dāng)時(shí)比較流行的應(yīng)用場(chǎng)景有優(yōu)酷、土豆、酷6。在當(dāng)時(shí)互聯(lián)網(wǎng)1.0時(shí)代就是3G時(shí)代的標(biāo)志性視頻應(yīng)用和網(wǎng)站。到了移動(dòng)互聯(lián)網(wǎng)時(shí)代,在4G網(wǎng)絡(luò)的催生下爆發(fā)出一些類似于抖音快手的短視頻應(yīng)用以及現(xiàn)在非常流行的直播包括泛娛樂的場(chǎng)景、秀場(chǎng),其中具有代表性的APP如映客、花椒、陌陌、火山,除此以外包括視頻的通信如微信、ZOOM,音視頻的通信也爆發(fā)起來。另外我們?cè)谝咔槠陂g在線教育蓬勃發(fā)展屬于在互聯(lián)網(wǎng)2.0時(shí)代催生產(chǎn)物。互聯(lián)網(wǎng)2.0時(shí)代的帶寬大概是在百兆的網(wǎng)絡(luò)狀況。預(yù)測(cè)在下一個(gè)階段產(chǎn)業(yè)互聯(lián)網(wǎng)的階段,隨著5G帶來的催生作用,5G帶寬有極大的增長(zhǎng),網(wǎng)絡(luò)從百兆提升到1GB。在此情況下,我們可以預(yù)估未來在醫(yī)療場(chǎng)景、監(jiān)控、遠(yuǎn)程教育、在線課堂以及VR、AR云游戲場(chǎng)景下,會(huì)有爆發(fā)性的增長(zhǎng)。
4
場(chǎng)景形態(tài)
4.1 實(shí)景式在線教育
上圖是實(shí)時(shí)場(chǎng)景下的在線教育,可以看出增強(qiáng)現(xiàn)實(shí)可以讓學(xué)習(xí)更加具備真實(shí)感和代入感,上圖中恐龍的場(chǎng)景,對(duì)于學(xué)生來說,它的代入感非常強(qiáng),體驗(yàn)非常真實(shí)。而混合現(xiàn)實(shí)的操作可以讓技術(shù)工人的操作更加有真實(shí)感。
4.2 高互動(dòng)在線娛樂
VR游戲互動(dòng)性與代入感非常強(qiáng),它的肢體識(shí)別、動(dòng)作識(shí)別都可以使整個(gè)游戲的趣味性極大增加。我們可以通過VR直播、VR眼鏡去觀看一場(chǎng)NBA的球賽或世界杯的足球賽。這種虛擬現(xiàn)實(shí)使人具有身臨其境的感覺。
4.3 沉浸式在線辦公
虛擬沉浸式在線辦公中現(xiàn)如今比較普及的是ZOOM、騰訊會(huì)議、釘釘在線進(jìn)一步優(yōu)化沉浸式辦公應(yīng)用。通過超高清、沉浸式、低延遲提高遠(yuǎn)程辦公的協(xié)作效率。
根據(jù)IDC的市場(chǎng)評(píng)估,沉浸式視頻云市場(chǎng)發(fā)展的趨勢(shì)處于飛速發(fā)展的階段。從2019年到2023年五年期間,整個(gè)年復(fù)合增長(zhǎng)率超過66%,由此看出這是個(gè)非常強(qiáng)勁的增長(zhǎng)。到2023年,整個(gè)VR、AR設(shè)備的保有率將會(huì)超過6000萬以上,這就是未來VR、AR的設(shè)備將有爆炸式增長(zhǎng)。在硬件加持的基礎(chǔ)上,開發(fā)者可以有更大的想象空間,未來VR、AR的應(yīng)用和它創(chuàng)意性的應(yīng)用會(huì)有很大增長(zhǎng)。
5
沉浸式視頻面臨的挑戰(zhàn)
5.1 挑戰(zhàn)是什么?
人眼對(duì)沉浸式視頻的要求會(huì)更加的苛刻,人眼對(duì)視頻機(jī)制的追求需要達(dá)到50K、120fps、20bit的分辨率和碼率以及色域的要求,才能達(dá)到真正人眼沉浸式的需求。當(dāng)前我們所看到的網(wǎng)上視頻遠(yuǎn)遠(yuǎn)達(dá)不到這樣的要求,更多的是720p、30fps、8bit。要達(dá)到人眼對(duì)沉浸式視頻的要求,對(duì)視頻的編解碼以及傳輸會(huì)有非常巨大的挑戰(zhàn)。
5.2 應(yīng)對(duì)挑戰(zhàn)的方法
金山云的產(chǎn)品布局主要集中在三個(gè)方面:互動(dòng)性,去提高視頻的互動(dòng)能力;超高清;VR技術(shù)。這三塊技術(shù)構(gòu)建在整個(gè)金山云的IaaS平臺(tái)的基礎(chǔ)上。IaaS擁有大規(guī)模的云計(jì)算平臺(tái)、CDN的流量分發(fā),以及RTC加邊緣計(jì)算等底層IaaS技術(shù)。通過IaaS技術(shù),構(gòu)建對(duì)開發(fā)者提供完善的PaaS的平臺(tái),包括邊緣計(jì)算平臺(tái),以及邊緣計(jì)算加RTC音視頻傳輸?shù)哪芰?#xff0c;這是我們?cè)诨?dòng)低延遲上能力輸出。第二部分是超高清,超高效除了開放編解碼技術(shù)、8K、10bit編碼能力,還提供了包括畫質(zhì)評(píng)測(cè)以及魔鏡平臺(tái),這些專門針對(duì)超高清的產(chǎn)品去提供給開發(fā)者和客戶去使用,在VR上我們會(huì)專注于低延遲的VR編解碼、VR傳輸、在AI加持下的手勢(shì)肢體識(shí)別去提供整個(gè)VR的解決方案。以上是金山云在產(chǎn)品上的布局。
6
金山云視頻云關(guān)注技術(shù)點(diǎn)
金山云視頻云關(guān)注技術(shù)點(diǎn)主要集中在上圖三個(gè)大方向。第一部分是低延遲,通過RTC和邊緣計(jì)算的軟件加平臺(tái)的支持,可以保證編解碼在傳輸過程中的延遲在毫秒級(jí)以內(nèi)。第二部分是編解碼技術(shù),是我們的核心,在編解碼的加持下,會(huì)提供一個(gè)超高清的能力專注于8K、10bit,盡可能多去給客戶帶來碼率節(jié)省。第三部分是沉浸式技術(shù),通過AR、VR的技術(shù)以及AI技術(shù)的加持下,去整合視頻的能力、超低延遲的編碼、傳輸方案以及相應(yīng)的AI技術(shù)能力。所有的金山云的核心技術(shù)能力將會(huì)通過PaaS平臺(tái)去對(duì)外提供產(chǎn)品。三大塊的技術(shù)點(diǎn)將會(huì)通過金山云沉浸式的平臺(tái)、通過PaaS的方式提供給客戶,去支持創(chuàng)新性的開發(fā)與應(yīng)用底層能力的支撐。
6.1 RTC+邊緣計(jì)算技術(shù)帶來低延遲
如何通過RTC+邊緣計(jì)算技術(shù)帶來低延遲的音視頻傳輸?shù)哪芰Α=鹕皆频倪吘売?jì)算在全球超過1000個(gè)點(diǎn)的數(shù)據(jù)中心的規(guī)模,所以可以提供低于15毫秒的低延遲接入、良好的跨網(wǎng)絡(luò)的路由調(diào)度能力以及高效的音視頻傳輸?shù)臄?shù)據(jù)流。金山云的邊緣計(jì)算有非常強(qiáng)大的算力支持和布點(diǎn)的分布。通過RTC軟件的能力,金山云還提供了百人同時(shí)在線的音視頻通話的能力、豐富SDK終端支持。通過強(qiáng)大的音視頻處理和FEC弱網(wǎng)技術(shù)的支撐,可以提供豐富音視頻場(chǎng)景的能力支撐。目前金山云更多集中在泛娛樂的場(chǎng)景,比如說泛娛樂的連麥,以及在線音視頻的教育,未來RTC和邊緣計(jì)算能力的結(jié)合,可以很好地應(yīng)用在我們的沉浸式的低延遲的場(chǎng)景上。
6.2 智能超高清編碼方案
第一部分金山云在編解碼技術(shù)上超過了5年的技術(shù)的積累,編解碼技術(shù)可以為客戶節(jié)省帶寬超過60%甚至80 %以上的壓縮率。這個(gè)壓縮率數(shù)據(jù)在行業(yè)中處于非常領(lǐng)先的能力水平。第二部分是通過我們的算法包括圖像算法、編碼算法,將畫面進(jìn)行分層的處理、重點(diǎn)去進(jìn)行畫質(zhì)的增強(qiáng)。第三部分是AI技術(shù),通過場(chǎng)景預(yù)測(cè)分析,畫質(zhì)的分析,我們可以為視頻客戶相應(yīng)不同場(chǎng)景的視頻,提供編碼的最優(yōu)解,達(dá)到場(chǎng)景化最優(yōu)編碼方案提供給使用者。
6.3 金山云深耕編碼技術(shù)
在編碼標(biāo)準(zhǔn)上,金山云同時(shí)支持了264編碼、265編碼、國產(chǎn)的AVS2的編碼以及最新的第四代編碼標(biāo)準(zhǔn)AV1,都在平臺(tái)上實(shí)現(xiàn)了商業(yè)化。同時(shí)我們也是AOM開放編碼組織的核心成員之一。
編碼都擁有獨(dú)立的知識(shí)產(chǎn)權(quán)。在2019年金山云提供專利超過50篇以上。
在性能上壓縮率大大高于開源編碼壓縮率,達(dá)到行業(yè)非常領(lǐng)先的位置。編碼優(yōu)化的效率在性價(jià)比上在云廠商處于非常靠前的位置。
我們還支持全鏈路。全鏈路是指同時(shí)支持云上的云轉(zhuǎn)碼,同時(shí)也支持移動(dòng)端的編解碼、web端的編解碼解碼的能力。所以金山云在云上、移動(dòng)端上、PC端上、web端上支持整個(gè)全鏈路的播放、端的云上編碼能力。
6.4 AV1編解碼進(jìn)展
當(dāng)前AV1編碼已經(jīng)支持了4K、8K超高清編碼以及100fps10bit編碼,10bit在iPhone12和小米10上已經(jīng)支持10bit的視頻拍攝與應(yīng)用。在這些APP中會(huì)有更多的應(yīng)用。金山云在AV1上提前布局,已經(jīng)支持了10bit的編解碼云上支持。
上圖是AV1編解碼的視頻展示,原片是6.37M,在265編碼下可以壓縮到1.59M,節(jié)省碼率帶寬大概是75%。在AV1下可以進(jìn)一步壓縮到800多kb,碼率節(jié)省達(dá)到85%,視頻的傳輸上有非常大的支持,可以將碼率降低到80%以上,她的傳輸質(zhì)量還有她的傳輸延遲,都會(huì)有很好的體驗(yàn)上升。
6.5 超清畫質(zhì)解決方案
上圖是在AI能力的加持下,AI加超高清編解碼的解決方案。通過AI我們可以實(shí)現(xiàn)以上四個(gè)大的提升。第一個(gè)是場(chǎng)景識(shí)別,可以對(duì)視頻場(chǎng)景進(jìn)行識(shí)別,對(duì)體育、秀場(chǎng)、游戲等不同的場(chǎng)景進(jìn)行匹配,對(duì)不同的場(chǎng)景運(yùn)用不同的編碼模板達(dá)到最優(yōu)的編碼應(yīng)用。第二個(gè)是內(nèi)容分割,通過ROI的分割,利用AI技術(shù)可以識(shí)別視頻中的人眼關(guān)注的區(qū)域如嘴唇,更多會(huì)對(duì)這些重點(diǎn)區(qū)域進(jìn)行視頻增強(qiáng),使主觀的效果更加優(yōu)秀,讓主體更加突出,讓背景看起來更純凈。第三個(gè)是質(zhì)量分析,通過神經(jīng)學(xué)習(xí),金山云支持多重的評(píng)價(jià)質(zhì)量類型包括KPA(圖像視頻感知評(píng)價(jià)體系)的質(zhì)量分析和VMAF分析,這些分析可以對(duì)不同的視頻進(jìn)行質(zhì)量的判定,比如對(duì)于高清的視頻可以應(yīng)用更激進(jìn)的編碼參數(shù),對(duì)于低清的視頻,可能會(huì)進(jìn)行一個(gè)更好的修復(fù),讓整體效果更加優(yōu)秀,視頻質(zhì)量進(jìn)一步提升。第四個(gè)是感知編碼,我們可以檢測(cè)出人眼最關(guān)注的區(qū)域比如人眼對(duì)邊緣的區(qū)域非常關(guān)注,會(huì)在邊緣地方分配更多的碼率進(jìn)行編碼。這四大塊是通過AI加編解碼的能力達(dá)到融合,使編碼更加高效,分配碼率更加合理,提高整個(gè)畫質(zhì),降低傳輸碼率。
6.6?VR分塊編碼
這一部分主要分享的是在VR上做的一些核心技術(shù)投入。首先是264編碼和265編碼和AV1編碼的差別。264編碼只支持Slice的切分,也就是橫向的切分。對(duì)于AV1和265編碼而言,它支持Tile的劃分,也就是它支持橫向和縱向的劃分,就是天然可以支持進(jìn)行分塊的編碼,這在VR中非常重要。通過我們的分塊,可以將VR進(jìn)行切分,通過切分后分塊進(jìn)行渲染,如果沒有分塊的渲染,只是整個(gè)視頻在VR硬件上進(jìn)行渲染對(duì)計(jì)算能力要求非常高,有可能設(shè)備解碼的溫度可能達(dá)到60攝氏度,戴在頭上是沒辦法接受的,只能在電視上進(jìn)行觀看。但是有了Tile編碼之后,只需要去解碼視場(chǎng)角范圍內(nèi)的視頻塊,會(huì)大大減輕頭顯對(duì)于解碼的計(jì)算能力的要求,使高清成為可能。Tile的話另外一個(gè)優(yōu)勢(shì)是,它的體積會(huì)更加小,碼率節(jié)省可以超過75%,大大減少整個(gè)傳輸?shù)某杀尽ile方案同時(shí)也帶來了挑戰(zhàn),首先是轉(zhuǎn)頭延遲,因?yàn)橥ㄟ^Tile的編碼,它只傳輸一部分的視頻,在轉(zhuǎn)頭的時(shí)候,要求延遲需要控制在人眼可以接受的范圍,對(duì)邊緣計(jì)算的要求,對(duì)處理的要求以及網(wǎng)絡(luò)傳輸?shù)囊蠖紩?huì)有一個(gè)更苛刻的訴求。其次是對(duì)AI和圖像處理而言也會(huì)帶來更大挑戰(zhàn),傳統(tǒng)圖像處理是針對(duì)整個(gè)畫面去做處理的,經(jīng)過Tile的傳輸和分塊之后,它進(jìn)行了切割和切分的處理,通過分塊編碼以及分塊編碼后的視頻處理的能力加上邊緣計(jì)算的能力,金山云能夠比較好地處理Tile編碼帶來的挑戰(zhàn)。通過“云、邊、端”鏈條可以將轉(zhuǎn)頭延時(shí)降低到人眼可接受范圍,同時(shí)在Tile編碼上對(duì)圖像處理很好進(jìn)行圖像增強(qiáng)。
6.7?沉浸式FOV視場(chǎng)角
Tile編碼是為了更好的實(shí)現(xiàn)FOV視場(chǎng)角的訴求。FOV視場(chǎng)角是在人眼上看到有一個(gè)范圍,大概人眼能夠觀測(cè)的范圍是90度的范圍。沉浸式視頻是360度的視角,但人眼最關(guān)注的區(qū)域在90度到120度之間。在人眼FOV視場(chǎng)角范圍內(nèi),我們可以傳輸和展現(xiàn)高清的視頻,當(dāng)我們轉(zhuǎn)頭時(shí),我們會(huì)把視場(chǎng)角由低分辨率切換到高分辨率,而視場(chǎng)角范圍外就會(huì)從高分辨率切換到低分辨率,這個(gè)切換實(shí)際上是要求在視頻的切換上需要保持在30毫秒到60毫秒以內(nèi)。要達(dá)到這個(gè),一方面需要Tile編碼的支持,另一方面也需要邊緣計(jì)算、網(wǎng)絡(luò)傳輸、編碼上的支持,讓視頻傳輸碼率更小,它的傳輸延遲就會(huì)極大降低,才能夠控制在60毫秒以內(nèi)。除了傳輸之外還需要在頭顯上集成和適配。所以全鏈路需要“云、邊、端”三端進(jìn)行融合,才能實(shí)現(xiàn)低延遲的轉(zhuǎn)頭延遲。金山云在FOV上有一定的時(shí)間沉淀,在這方面會(huì)通過平臺(tái)的方式以及解決方案的方式提供給客戶、開放給開發(fā)者去進(jìn)一步使用。以上就是關(guān)于技術(shù)上的一些分享。
7
愿景
金山云是在上圖三個(gè)大的方向上進(jìn)行投入。第一方面是互動(dòng)互聯(lián),通過我們的互動(dòng)視頻,可以使金山云更加智能、提供更低的延遲、更高清的語音和視頻的效果。第二方面是超高清能力,提供更高的畫質(zhì)體驗(yàn)、更大的壓縮率和更好的編碼效率、提供更好的性價(jià)比編碼服務(wù)和視頻媒體處理服務(wù)。第三方面試沉浸式技術(shù),通過分塊編碼、低延遲視角、FOV的低延遲的能力以及通過AI去加持交互識(shí)別可以提供整個(gè)沉浸式技術(shù)給到開放平臺(tái)上進(jìn)行開放,我們?cè)妇笆峭ㄟ^整個(gè)沉浸式視頻的平臺(tái)助推5G時(shí)代高清應(yīng)用的發(fā)展。
LiveVideoStackCon 2021 ShangHai
我們準(zhǔn)備好全新的內(nèi)容
在上海歡迎您的到來
LiveVideoStackCon 2021?上海站
北京時(shí)間:2021年4月16日-4月17日
點(diǎn)擊【閱讀原文】了解大會(huì)詳情
總結(jié)
以上是生活随笔為你收集整理的沉浸式视频技术应用与挑战的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021音视频开发的“坑”,等你来填!
- 下一篇: 音视频技术开发周刊 | 183