端到端神经视频编码=A Better Trade-off ?
歸根結(jié)底,每一種視頻壓縮方法都要權(quán)衡利弊(trade-off):如果允許更大的文件大小,就可以擁有更好的圖像質(zhì)量;但如果想讓文件非常小,那就必須要容忍錯(cuò)誤出現(xiàn)的概率。但現(xiàn)在(以及不久的將來(lái)),人們希望基于神經(jīng)網(wǎng)絡(luò)的方法能夠在視頻文件大小和質(zhì)量之間做出更好的權(quán)衡與交換(a better trade-off)。
?
凡是有AI加持的技術(shù)都被看作明日曙光,帶著神秘的未來(lái)感,讓人忍不住要靠近。所幸有南大馬展教授牽線搭橋,我們才得以采訪到南大在讀博士劉浩杰,后者參與發(fā)表的“端到端的神經(jīng)視頻編碼(Neural Video Coding using Multiscale Motion Compensation and Spatiotemporal Context Model)”?在人工智能頂會(huì)AAAI 2020并被選為Poster Spotlight,改進(jìn)之后的版本已上線GitHub,成為開源項(xiàng)目(鏈接????:https://njuvision.github.io/Neural-Video-Coding/)。
劉浩杰目前在紐約大學(xué)坦頓工程學(xué)院交換,巧也不巧,他恰是在疫情初期、美國(guó)對(duì)國(guó)內(nèi)封關(guān)的前一天抵達(dá)的紐約。
以下內(nèi)容由LiveVideoStack與劉浩杰的采訪整理而成。
01
?for Haojie Liu
LiveVideoStack:為什么選擇機(jī)器學(xué)習(xí)、神經(jīng)編碼作為研究方向?
劉浩杰:首先我的導(dǎo)師多年從事傳統(tǒng)視頻編碼的研究,在視頻編碼這個(gè)領(lǐng)域有著豐富的經(jīng)驗(yàn)和技術(shù)積累,2016年碩士入學(xué)期間,正好也是神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)逐漸火熱起來(lái)的階段,當(dāng)時(shí)基于深度學(xué)習(xí)的編碼才剛開始起步。
在這樣一個(gè)雙重契機(jī)下,我開始嘗試將兩者結(jié)合,主要研究基于深度學(xué)習(xí)的圖像視頻編碼,我研究的主要方向及課題至今也都據(jù)此展開。
LiveVideoStack:目前在紐約大學(xué)的研究方向?
劉浩杰:目前在紐約大學(xué)坦頓工程學(xué)院王瑤教授的視頻實(shí)驗(yàn)室(Video Lab)進(jìn)行訪問(wèn),主要是進(jìn)一步深化端到端圖像視頻編碼算法,細(xì)化整個(gè)端到端視頻編碼框架中每一個(gè)模塊,同時(shí)更好地將神經(jīng)編碼和視覺任務(wù)相結(jié)合,能做出更加面向?qū)嶋H應(yīng)用以及真實(shí)場(chǎng)景的研究成果。
當(dāng)然,設(shè)計(jì)一些有趣的不同于傳統(tǒng)框架的神經(jīng)視頻編碼框架也是我一直在探索的課題。
02
?For Neural-Video-Coding
LiveVideoStack:能具體聊一聊神經(jīng)編碼端到端的解決方案嗎?
劉浩杰:
1)從圖像編碼的角度,我們的方法引入了非局部模塊和自注意力機(jī)制,能更好地提取局部和非局部信息,同時(shí)隱式的自注意力機(jī)制能自適應(yīng)地分配碼率。
2)圖像編碼進(jìn)一步地由實(shí)驗(yàn)室的其余同學(xué)完成了網(wǎng)絡(luò)定點(diǎn)化、單模型多碼率點(diǎn)覆蓋等工作,這些更面向?qū)嶋H應(yīng)用和落地。
3)結(jié)合圖像分割我們也在我們自身的系統(tǒng)中融入了基于目標(biāo)的圖像編碼以及分析,在極低碼率下我們的算法能得到極高的主觀視覺質(zhì)量。
3)在端到端視頻編碼系統(tǒng)中,我們結(jié)合自身開發(fā)的非局部自注意力圖像編碼算法NLAIC,采用時(shí)域預(yù)測(cè)模型ConvLSTM來(lái)提取并聚合時(shí)域的先驗(yàn),并與空間先驗(yàn)融合從而提供了一個(gè)更好的概率模型能顯著減少碼率。
4)在幀間預(yù)測(cè)過(guò)程中,我們結(jié)合了多尺度的運(yùn)動(dòng)估計(jì)生成多尺度的運(yùn)動(dòng)場(chǎng),同時(shí)對(duì)視頻特征域進(jìn)行多尺度的運(yùn)動(dòng)補(bǔ)償,逐級(jí)優(yōu)化預(yù)測(cè)性能,這樣的方法能更好地解決視頻遮擋等較難預(yù)測(cè)的問(wèn)題,得到更好的視頻預(yù)測(cè)性能。
LiveVideoStack:研究過(guò)程中印象最深的難點(diǎn)?
劉浩杰:相比于一些純粹的圖像增強(qiáng)算法,視頻編碼涉及到的最重要的是對(duì)所編碼特征進(jìn)行碼率估計(jì)并聯(lián)合視頻重建損失進(jìn)行率失真優(yōu)化。
傳統(tǒng)視頻編碼中模式選擇如何很好地應(yīng)用在端到端系統(tǒng)中進(jìn)行多幀優(yōu)化的過(guò)程中,解決在訓(xùn)練過(guò)程中多幀率失真優(yōu)化是一個(gè)比較困難的點(diǎn)。
LiveVideoStack:就目前研究而言,仍有哪些待解決的具體問(wèn)題?
劉浩杰:
1)幀間編碼是視頻編碼的一個(gè)很重要組成部分,在有限的碼率約束下,基于已編碼的視頻幀得到更好的預(yù)測(cè)幀是一個(gè)很關(guān)鍵的問(wèn)題。
2)基于時(shí)空信息更好地設(shè)計(jì)概率預(yù)測(cè)模型。
3)更好地設(shè)計(jì)多幀率失真優(yōu)化,多幀的率失真優(yōu)化問(wèn)題能有效地解決實(shí)際編碼過(guò)程中的誤差累積和傳播的問(wèn)題,對(duì)于最終的編碼性能有很大的影響。
LiveVideoStack:如何看待“神經(jīng)編碼有著better trade-off”的說(shuō)法?
劉浩杰:我認(rèn)為這個(gè)是兩面性的。對(duì)于圖像編碼來(lái)說(shuō),端到端的圖像編碼技術(shù)日趨成熟,由于基于學(xué)習(xí)的算法能同時(shí)優(yōu)化編碼器和解碼器,并且在特征變換、概率估計(jì)、量化等方法的不斷優(yōu)化的情況下,使得整個(gè)端到端框架能很好地進(jìn)行率失真優(yōu)化。
而對(duì)于視頻編碼來(lái)說(shuō),傳統(tǒng)視頻編碼中有著復(fù)雜的塊劃分以及模式選擇等來(lái)優(yōu)化整個(gè)編解碼系統(tǒng),而目前端到端的視頻編碼系統(tǒng)很難用一個(gè)模型來(lái)完美地去解決所有的問(wèn)題。如何在訓(xùn)練中對(duì)多幀的視頻編碼器進(jìn)行優(yōu)化,以及是否采用多模型,幀內(nèi)幀間的RD選擇等很多問(wèn)題都需要在這樣的系統(tǒng)中解決。因此,如何在端到端視頻編碼中設(shè)計(jì)一個(gè)比較好的率失真優(yōu)化策略能帶來(lái)很大的性能增益。
LiveVideoStack:對(duì)國(guó)內(nèi)做相關(guān)研究的機(jī)構(gòu)、平臺(tái)有哪些了解?
劉浩杰:國(guó)內(nèi)例如上海交通大學(xué)、中科大、北京大學(xué)、騰訊、阿里巴巴都在這個(gè)領(lǐng)域有著很多優(yōu)秀的研究成果。
上海交大提出了最早的端到端的視頻編碼框架DVC,并在此基礎(chǔ)上有提出了DVC_pro,進(jìn)一步地提升了編碼的性能;
中科大劉東老師團(tuán)隊(duì)在傳統(tǒng)視頻編碼框架上引入了很多深度學(xué)習(xí)算法來(lái)提升對(duì)應(yīng)的模塊極大地提高了傳統(tǒng)編碼框架的性能,同時(shí)他們提出的基于神經(jīng)網(wǎng)絡(luò)小波變換的端到端圖像壓縮算法,利用集成學(xué)習(xí)的方法針對(duì)特定圖像紋理優(yōu)化特定壓縮模型,在端到端視頻編碼框架中利用多參考幀的MLVC有著很高的壓縮性能;
北京大學(xué)團(tuán)隊(duì)提出了層級(jí)的概率先驗(yàn)表達(dá),進(jìn)一步優(yōu)化了端到端系統(tǒng)中的概率模型,在更高效編碼圖像的同時(shí)也有著更低的編解碼復(fù)雜度。
工業(yè)界騰訊所提出的Multi-frequency的特征變換方法,在圖像編碼中有著比VVC更好的性能。
LiveVideoStack:對(duì)國(guó)外神經(jīng)編碼相關(guān)的研究有關(guān)注嗎?
劉浩杰:Google的編碼團(tuán)隊(duì)在整個(gè)端到端系統(tǒng)上做出了很多基礎(chǔ)性的工作,從最早的基于遞歸模型的圖像編碼開始,以及之后的基于Variational autoencoder (VAE) 變分自編碼器的壓縮模型成為了目前大多數(shù)工作的基礎(chǔ),在此基礎(chǔ)上很多工作對(duì)于特征變換、量化、以及多層級(jí)的概率模塊來(lái)得到更好的壓縮性能。
蘇黎世聯(lián)邦理工ETH的視覺實(shí)驗(yàn)室所提出的很多工作,包括soft-to-hard的量化方法、3D概率模型、極低碼率的圖像壓縮方法以及他們所提出的端到端視頻編碼系統(tǒng)都對(duì)神經(jīng)編碼這個(gè)領(lǐng)域有著很大的貢獻(xiàn),同時(shí)他們還復(fù)現(xiàn)并開源了端到端視頻編碼DVC的工作,給很多研究人員帶來(lái)了極大的便利。
我也有關(guān)注Disney的方法,他們發(fā)表于ICCV 2019的文章,利用視頻內(nèi)插(video interpolation)的思路,引入了編碼的約束來(lái)得到中間幀,同時(shí)他們提出了從特征域去做殘差補(bǔ)償?shù)木幋a方法,最終得到很好的編碼性能。
LiveVideoStack:有關(guān)中間編碼的應(yīng)用?
劉浩杰:由于神經(jīng)編碼的變換一般通過(guò)特征提取的方式得到量化的特征,而很多計(jì)算機(jī)視覺任務(wù)一般也通過(guò)特征提取和表達(dá)來(lái)進(jìn)行一些視覺任務(wù),因此在進(jìn)行一些視覺任務(wù)時(shí),可以通過(guò)中間編碼的特征直接去做一些視覺任務(wù)而極大減少解碼還原成圖像的時(shí)間成本和復(fù)雜度。這樣的方法能很好地應(yīng)用在一些機(jī)器視覺的方法中,并提高這些方法的應(yīng)用效率。
03
?For Traditional Video Coding
LiveVideoStack:傳統(tǒng)編碼的局限性有哪些?
劉浩杰:
1)傳統(tǒng)視頻編碼框架延續(xù)了基于塊的混合編碼框架已經(jīng)近20多年了,并取得了很大的成功,其成功很大程度地受益于硬件的不斷發(fā)展。但受限于摩爾定律,硬件發(fā)展逐漸陷入瓶頸,通過(guò)計(jì)算復(fù)雜度來(lái)進(jìn)一步換取編碼性能日益困難,硬件設(shè)計(jì)的成本和難度也不斷提高。
2)此外,如今視頻編碼已經(jīng)不僅僅局限于滿足用戶端的觀看需求,在用戶需求不斷增長(zhǎng)和變化的當(dāng)下,視頻編碼傳輸后的分析和其他視覺應(yīng)用也更加豐富,對(duì)于一些新穎的視頻編碼算法和框架的探索和發(fā)展顯得尤為重要。
3)傳統(tǒng)編碼主要集中在基于像素的預(yù)測(cè),無(wú)法更好利用特征域的相關(guān)性更好地解決數(shù)據(jù)間的去冗余,此外基于學(xué)習(xí)的視頻編解碼能端到端地優(yōu)化編解碼器以及相關(guān)的模塊。
LiveVideoStack:如何評(píng)價(jià)VVC等新一代的傳統(tǒng)編解碼器?
劉浩杰:就整體上VVC仍然遵循著相同的混合編碼框架,包括塊劃分、幀內(nèi)預(yù)測(cè)、幀間預(yù)測(cè)、變換與量化、熵編碼、濾波等,在每一個(gè)特定的技術(shù)點(diǎn)上,VVC都比原有技術(shù)有著進(jìn)一步的提升。
客觀質(zhì)量而言,對(duì)于SDR視頻能比HEVC最高節(jié)省超過(guò)40%的碼率,并且對(duì)HDR以及VR視頻也有著相同的增益,其主觀性能也明顯高于HEVC。
LiveVideoStack:神經(jīng)編碼與傳統(tǒng)編碼的相同與不同?
劉浩杰:神經(jīng)編碼和傳統(tǒng)編碼從本質(zhì)上都是通過(guò)利用視頻的時(shí)空相關(guān)性和對(duì)應(yīng)的先驗(yàn)信息來(lái)去冗余,從而能更緊湊地表達(dá)視頻信息,通過(guò)率失真優(yōu)化盡可能用有限的信息來(lái)得到更高的視頻重建。
從復(fù)雜度方面來(lái)講,由于目前傳統(tǒng)編碼和神經(jīng)視頻編碼依賴的計(jì)算平臺(tái)有區(qū)別,同時(shí)神經(jīng)編碼在工程化和硬件化領(lǐng)域上的發(fā)展遠(yuǎn)遠(yuǎn)不夠成熟,相信隨著人工智能芯片的發(fā)展,神經(jīng)網(wǎng)絡(luò)量化定點(diǎn)化的成熟,神經(jīng)編碼在各方面的優(yōu)勢(shì)會(huì)逐漸體現(xiàn)。
目前已有很多研究成果在GPU上能實(shí)現(xiàn)實(shí)時(shí)的圖像編解碼算法,并有較好的主觀圖像重建性能。
01
?For the Very Close Future
LiveVideoStack:端到端的神經(jīng)編碼的相關(guān)應(yīng)用場(chǎng)景?
劉浩杰:
1)基于目標(biāo)的端到端圖像編碼,我們?cè)谘芯窟^(guò)程中發(fā)現(xiàn)其在監(jiān)控場(chǎng)景下的車牌識(shí)別、行人識(shí)別任務(wù)上有著很好的表現(xiàn)和性能。
2)在極低碼率下得到很高精度的重建圖像視頻,能在一些帶寬極其受限的場(chǎng)景下有著廣闊的應(yīng)用場(chǎng)景,例如深海探測(cè),航空通信等。
LiveVideoStack:神經(jīng)編碼應(yīng)用的落地及普及需要哪些條件?
劉浩杰:
1)有更多的團(tuán)隊(duì)來(lái)共同來(lái)對(duì)神經(jīng)編碼去制定一些統(tǒng)一的標(biāo)準(zhǔn)。
2)更多的代碼開源以及更多的開放接口便于其他模塊接入。
3)神經(jīng)網(wǎng)絡(luò)硬件的成熟和發(fā)展。
LiveVideoStack:有關(guān)神經(jīng)編碼本身有哪些仍需要被解決的難題?
劉浩杰:
1)由于神經(jīng)編碼后續(xù)模塊的不斷增加,如何更好地對(duì)多模塊進(jìn)行端到端訓(xùn)練是一個(gè)需要解決的問(wèn)題。
2)神經(jīng)編碼目前性能比較的基準(zhǔn)沒有一個(gè)比較好的統(tǒng)一標(biāo)準(zhǔn)。
3)多幀間的率失真優(yōu)化和碼率分配問(wèn)題在訓(xùn)練過(guò)程中往往很難解決,一個(gè)模型很難在所有序列上達(dá)到整體的最優(yōu)性能,模式選擇以及訓(xùn)練多模型對(duì)于性能來(lái)說(shuō)也尤其重要。
LiveVideoStack:機(jī)器學(xué)習(xí)在視頻編解碼中的應(yīng)用前景?
劉浩杰:
1)利用機(jī)器學(xué)習(xí)的方法替代傳統(tǒng)視頻編碼中的相關(guān)模塊,機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)在圖像視頻預(yù)測(cè)、去噪去塊等方法都有著比傳統(tǒng)方法更優(yōu)越的性能,用相對(duì)應(yīng)的模塊去做替換能極大的提升傳統(tǒng)編碼的性能。
2)設(shè)計(jì)一個(gè)全新的端到端的基于學(xué)習(xí)的視頻編碼框架,如更好的圖像變換,幀內(nèi)幀間預(yù)測(cè)模塊、量化、概率模型等。
3)機(jī)器學(xué)習(xí)能拓展視頻編碼應(yīng)用的邊界,從最早的只服務(wù)于用戶端的觀看需求,到如今服務(wù)于各種機(jī)器視覺任務(wù),以及面向更高效的客戶端的視頻處理和分析。
LiveVideoStack:如何看待神經(jīng)編碼未來(lái)的發(fā)展?
劉浩杰:在研究端到端視頻編碼框架的同時(shí),我們實(shí)驗(yàn)室也提出了一些面向硬件的神經(jīng)網(wǎng)絡(luò)編碼定點(diǎn)化,同時(shí)我們的算法也有基于一些神經(jīng)網(wǎng)絡(luò)芯片進(jìn)行簡(jiǎn)化并在上面進(jìn)行測(cè)試。
AI芯片以及面向這些芯片如何去優(yōu)化設(shè)計(jì)端到端的編碼系統(tǒng)是一個(gè)重要的問(wèn)題,這也關(guān)系到神經(jīng)編碼的未來(lái)落地應(yīng)用。
此外,劉浩杰所在實(shí)驗(yàn)室的端到端圖像編碼算法參加了Google舉辦的第二屆圖像編碼比賽(https://openaccess.thecvf.com/content_CVPRW_2019/papers/CLIC%202019/Liu_Practical_Stacked_Non-local_Attention_Modules_for_Image_Compression_CVPRW_2019_paper.pdf),其中MS-SSIM指標(biāo)在所有提交算法中排名第二,后續(xù)開源模型在客觀和主觀指標(biāo)上能穩(wěn)定超過(guò)BPG算法,在一定圖像上達(dá)到并超過(guò)VVC的性能。其相關(guān)成果支持基于目標(biāo)的編碼、特征域的多種視覺任務(wù)(PCM best paper finallist)、極低碼率的高質(zhì)量圖像重建等,在對(duì)視頻預(yù)測(cè)方面也提出了多種方法進(jìn)一步提升幀間預(yù)測(cè)的性能和效率。
編輯:Coco Liang
LiveVideoStackCon 2020?北京
2020年10月31日-11月1日
點(diǎn)擊【閱讀原文】了解更多詳細(xì)信息
總結(jié)
以上是生活随笔為你收集整理的端到端神经视频编码=A Better Trade-off ?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【线上直播】Xilinx U30 视频转
- 下一篇: 圆桌对话:数字化升级,视频通信云赋能全行