与金山云的樊博士聊了聊AV1算法优化以及如何提升沉浸式视频的沉浸感
講師介紹
樊鴻飛,金山云高級(jí)研發(fā)總監(jiān),北京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)博士,負(fù)責(zé)視頻云的VR、視頻編碼、人工智能等技術(shù)線研發(fā),近年來(lái)主要從事沉浸式視頻、視頻編碼、圖像處理、計(jì)算機(jī)視覺(jué)方向上的研究與技術(shù)落地,主要研究與應(yīng)用成果發(fā)表于國(guó)際頂級(jí)期刊IEEE TIP、IEEE TCSVT、IEEE TMM等。
以下內(nèi)容由LiveVideoStack與樊鴻飛的采訪整理而成。
?AV1算法優(yōu)化?
LiveVideoStack:作為AOM的成員之一,今年金山云在AV1算法優(yōu)化方面,又做了哪些研發(fā)工作?取得了哪些成果,有具體的數(shù)據(jù)/產(chǎn)品功能可以分享嗎?
樊鴻飛:金山云持續(xù)在 AV1 編碼速度上進(jìn)行了優(yōu)化,較去年年中編碼速度再翻倍,幾乎沒(méi)有客觀畫(huà)質(zhì)損失,超過(guò)開(kāi)源的 AOM和SVT-AV1。同時(shí),逐步完善各種碼控模式,滿足點(diǎn)播場(chǎng)景需要。另外,AV1在主觀畫(huà)質(zhì)上也有一個(gè)版本的迭代,在PSNR loss 不足1%的情況下,提升VMAF的BD-RATE性能20%以上。
?提升沉浸感?
LiveVideoStack:在沉浸式視頻中,人眼對(duì)視頻沉浸感的要求越來(lái)越高,金山云如何滿足用戶在這方面的需求?以及如何檢測(cè)人眼感興趣的地方?
樊鴻飛:提升沉浸感的根源在于傳輸更高分辨率的圖像畫(huà)面,金山云在確保畫(huà)面質(zhì)量的前提下,提供110+°廣角、360°全景的4K/8K視頻的實(shí)時(shí)編碼/渲染能力。同時(shí),我們采用高清+低清的雙路流方案,在畫(huà)面邊緣(偏離視軸最遠(yuǎn)處)使用低清畫(huà)面,達(dá)到更大的視角覆蓋率,能夠顯著提升畫(huà)面沉浸感。
在ROI方面,我們使用基于人工智能的顯著度度量+目標(biāo)檢測(cè)算法,來(lái)識(shí)別100多種人眼顯著的圖像內(nèi)容區(qū)域,對(duì)這些像素區(qū)域分配較低的QP來(lái)提升畫(huà)質(zhì)。
除此之外,我們更關(guān)心人眼敏感的低頻區(qū)域,針對(duì)空域和時(shí)域兩個(gè)維度來(lái)考慮,當(dāng)空域高頻集中或者時(shí)域運(yùn)動(dòng)過(guò)快的區(qū)域,都可以進(jìn)行碼率上的節(jié)省,相反對(duì)于人眼敏感的頻域部分都會(huì)進(jìn)行像素級(jí)的保護(hù)。
LiveVideoStack:您認(rèn)為沉浸式視頻在超高清轉(zhuǎn)碼下的平均延遲目前大概是多少?真正的沉浸體驗(yàn)?zāi)繕?biāo)延遲是多少?您認(rèn)為多少是優(yōu)秀,多少是及格?
樊鴻飛:一般情況下,沉浸式視頻要求具備超高清和低延遲互動(dòng)兩個(gè)能力。針對(duì)弱互動(dòng)來(lái)說(shuō),延遲一般可以允許高于3000ms;對(duì)于一些低延遲直播,例如主播需要根據(jù)情況及時(shí)回應(yīng)觀眾的彈幕、打賞信息等場(chǎng)景,一般需要800ms~1200ms左右的延遲;對(duì)于中互動(dòng)場(chǎng)景,例如主播之間的連麥,需要400ms~800ms;對(duì)于強(qiáng)互動(dòng)來(lái)說(shuō),是對(duì)延遲零容忍的,比如視頻會(huì)議,甚至更高要求的云游戲,則需要延遲低于400ms。
對(duì)于低延遲直播,仍然能夠允許在云端進(jìn)行轉(zhuǎn)碼處理,但處理總延遲不能高于100ms。對(duì)于眾互動(dòng)甚至強(qiáng)互動(dòng)的應(yīng)用場(chǎng)景下,已經(jīng)開(kāi)始需要在終端完成全部處理,終端的整體處理延遲不能超過(guò)200ms,一般留給編碼器的延遲不能高于80ms。
因此,對(duì)于云端來(lái)說(shuō),100ms以下的處理延遲我們認(rèn)為是及格;對(duì)于終端來(lái)說(shuō),80ms算及格。關(guān)于云游戲這樣極端的體驗(yàn)來(lái)說(shuō),整體編碼延遲不能超過(guò)12ms,因此只有編碼器能夠達(dá)到12ms以內(nèi)的延遲,才能算作優(yōu)秀。
LiveVideoStack:您認(rèn)為目前5G技術(shù)對(duì)沉浸式視頻的助力有多大?助力點(diǎn)具體體現(xiàn)在哪些方面?您如何看待它的未來(lái)趨勢(shì)?
樊鴻飛:首先,5G的移動(dòng)邊緣計(jì)算(MEC)、網(wǎng)絡(luò)切片等技術(shù)特性能夠極大降低邊緣推拉流產(chǎn)生的鏈路延遲,尤其是在一些類似于FOV這種終端跟邊緣需要進(jìn)行頻繁上下行通信的場(chǎng)景中將產(chǎn)生非常大的增益。
其次,5G的大帶寬將使得終端能夠輕易的獲取8K乃至12K、16K的碼流,而更大的分辨率意味著更強(qiáng)的沉浸感。
最后,5G的高速率低延遲將催生出大量沉浸式直播應(yīng)用場(chǎng)景,而受限于4G的局限性,這些場(chǎng)景在當(dāng)下是十分稀缺的。
可以預(yù)見(jiàn)的是,沉浸式視頻在未來(lái)與5G將具備非常深層次的綁定關(guān)系,很多沉浸式視頻技術(shù)也將基于5G得到迅速發(fā)展,例如全景VR、3D視覺(jué)、6DoF等等。就像3G催生出移動(dòng)互聯(lián)網(wǎng)普及、4G催生出短視頻/RTC等應(yīng)用,在5G場(chǎng)景下,沉浸式視頻將是一個(gè)非常重要的爆發(fā)點(diǎn)。
LiveVideoStack:您認(rèn)為金山云視頻云在行業(yè)內(nèi)的競(jìng)爭(zhēng)優(yōu)勢(shì)是什么?
樊鴻飛:金山云視頻云致力于為客戶提供高畫(huà)質(zhì)、低延遲、智能化的沉浸式視頻云服務(wù),除了我們的高穩(wěn)定性、資源彈性、7*24小時(shí)售后服務(wù)體系、成熟完善的重保流程體系之外,金山云視頻云在畫(huà)質(zhì)、卡頓率兩個(gè)核心指標(biāo)上出類拔萃。在這其中,視頻編碼則是我們算法的核心部分,為了打造最好的主觀畫(huà)質(zhì),我們先后推出金山云魔鏡平臺(tái)、KPA(Kingsoft Cloud Perceptual Assessment)無(wú)參考主觀評(píng)價(jià)指標(biāo)等服務(wù),同時(shí)利用KPA持續(xù)優(yōu)化我們的編碼算法,致力于在相同碼率下達(dá)到最優(yōu)主觀畫(huà)質(zhì)。
?對(duì)泛娛樂(lè)領(lǐng)域的期待?
LiveVideoStack:除去已經(jīng)被多次討論的在線教育、語(yǔ)音社交等領(lǐng)域,在您看來(lái),音視頻行業(yè)還有哪些領(lǐng)域?qū)⒂瓉?lái)井噴式的發(fā)展?
樊鴻飛:我認(rèn)為音視頻行業(yè)在泛娛樂(lè)領(lǐng)域的發(fā)展還并沒(méi)有完成,我仍然看好其在泛娛樂(lè)行業(yè)的增長(zhǎng)。從性能指標(biāo)來(lái)看,延遲、卡頓、畫(huà)質(zhì)等指標(biāo)均尚未滿足云游戲的要求。未來(lái)的終端會(huì)往更輕便、低功耗的方向發(fā)展,終端的功能也會(huì)更加傾向于與現(xiàn)實(shí)的交互能力與顯示視頻的能力。很多應(yīng)用都會(huì)以視頻流的形式傳輸?shù)浇K端,讓終端來(lái)進(jìn)行顯示和交互。但是目前的延遲還無(wú)法比擬直接在終端上進(jìn)行計(jì)算,從而對(duì)諸多應(yīng)用有了限制。因此,當(dāng)技術(shù)邁過(guò)了延遲、卡頓、畫(huà)質(zhì)這三個(gè)核心指標(biāo)之后,以云游戲?yàn)槭椎脑贫虽秩尽⒔K端顯示的新模式將在泛娛樂(lè)行業(yè)迎來(lái)爆發(fā)式的增長(zhǎng)。
?大會(huì)分享預(yù)告?
LiveVideoStack:對(duì)于本次 LiveVideoStackCon 2021 上海站的分享,您會(huì)帶來(lái)哪些令人期待的具體內(nèi)容呢?
樊鴻飛:這次LVS2021上海站,我將分享在超高清沉浸式視頻應(yīng)用中,我們對(duì)編碼器的性能做的優(yōu)化。由于沉浸式視頻的超高分辨率,這個(gè)場(chǎng)景對(duì)編碼器提出了很高的要求,需要編碼器在有限的碼率內(nèi)保證高清晰度的編碼質(zhì)量。客觀指標(biāo)(如PSNR、SSIM)對(duì)視頻質(zhì)量的衡量是有局限性的,因此對(duì)客觀指標(biāo)下的視頻編碼優(yōu)化無(wú)法達(dá)到主觀畫(huà)質(zhì)的最優(yōu)。金山云通過(guò)預(yù)處理、JND、全景視頻投影轉(zhuǎn)換等算法,考慮人眼對(duì)不同頻域的感知,最優(yōu)化相同碼率下的主觀畫(huà)質(zhì),持續(xù)為用戶提供優(yōu)質(zhì)的直播、點(diǎn)播服務(wù)。
編輯:Teresa Li
Pic from?Canva
LiveVideoStackCon 2021?上海站
時(shí)間:2021年4月16日-4月17日
我們準(zhǔn)備好全新的內(nèi)容,在上海歡迎您的到來(lái)
點(diǎn)擊【閱讀原文】了解更多詳情
總結(jié)
以上是生活随笔為你收集整理的与金山云的樊博士聊了聊AV1算法优化以及如何提升沉浸式视频的沉浸感的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 一文看懂WebTransport
- 下一篇: 【内容生产创“新”之道】