视频编码末日将至?
Netflix的視頻算法主管Anne Aaron撰文對視頻編解碼的未來發(fā)展方向,基于塊的混合編碼,畫質(zhì)評定新方法,以及創(chuàng)新思維。LiveVideoStack對本文進行了摘譯。
文 / Anne Aaron, Jan De Cock
譯 / 金歌
在《IEEE Signal Processing》雜志2006年11月發(fā)表的“視頻編碼與傳輸?shù)奈磥怼?/span>(https://ieeexplore.ieee.org/document/4015574/)一文中,Edward Delp教授在大會一開始便向其他與會嘉賓詢問道:“視頻編碼已經(jīng)走到盡頭了么?有人認(rèn)為,隨著編碼效率較高的H.264/MPEG-4技術(shù)的出現(xiàn)……也許(視頻編碼)沒有更多提升與改進的空間了。不得不說,自我1976年開始從事圖像與視頻編碼工作以來,我已經(jīng)聽說過不下四次‘壓縮技術(shù)已死’這樣的言論了。”
雖然早在四十多年以前,人們便曾提出過“視頻編碼已死”的假設(shè),然而在2018年的今天,我們有幸在此(舊金山)齊聚一堂,召開第33屆圖像編碼會議(PCS)。(http://www.pcs2018.com/)
圖像和視頻編碼是否真的已死了呢?從相關(guān)應(yīng)用程序的角度來看,視頻壓縮技術(shù)目前仍然生機勃勃,在互聯(lián)網(wǎng)領(lǐng)域蓬勃發(fā)展著。Cisco在2017年6月發(fā)布的名為“澤字節(jié)時代:趨勢與分析”的白皮書中提到,2016年IP視頻流量占總IP流量的73%。據(jù)估計,到2021年這一數(shù)字將攀升至82%。Sandvine在2016年6月發(fā)布的“全球互聯(lián)網(wǎng)現(xiàn)象報告”中指出,在北美固定接入網(wǎng)絡(luò)的下載高峰期,以下四種VOD服務(wù)(視頻點播)占據(jù)著60%的數(shù)據(jù)流量:Netflix,YouTube,Amazon Video和Hulu。Ericsson在2017年11月發(fā)布的“移動市場報告”中估計,視頻應(yīng)用占據(jù)了2017年總移動數(shù)據(jù)流量的55%,預(yù)計到2023年這一比例將提升至75%。
而從工業(yè)界參與視頻編碼研究這方面來看,這一領(lǐng)域甚至比以往任何一個時期都更加活躍。 2015年,眾頂尖科技公司成立了開放媒體聯(lián)盟(AOM),旨在合作開發(fā)免版稅的視頻編碼器。AOM的目標(biāo)是開發(fā)一種高效、高性價比、高質(zhì)量和可互操作的視頻編碼技術(shù),其成果AV1編碼器將于今年內(nèi)推出。2017年10月,來自ITU-T VCEG團隊和ISO/IEC MPEG團隊的專家們組成了聯(lián)合視頻專家組(JVET),旨在開發(fā)具有超越HEVC功能的新視頻標(biāo)準(zhǔn)。他們于近日結(jié)束的建議書征集活動吸引了多達32家來自工業(yè)界和學(xué)術(shù)界的機構(gòu),總計收到了22份建議書。預(yù)計JVET將于2020年10月推出新的視頻編碼標(biāo)準(zhǔn)——通用視頻編碼標(biāo)準(zhǔn)(VVC,Versatile Video Coding)。
與許多全球互聯(lián)網(wǎng)公司一樣,Netflix也意識到推動視頻編碼技術(shù)進步對于提升視頻觀看體驗是至關(guān)重要的。一方面,許多人受限于不可靠的網(wǎng)絡(luò)或有限的數(shù)據(jù)套餐,制約了當(dāng)今先進技術(shù)所能夠提供的最佳視頻質(zhì)量。另一方面,4K UHD、360度視頻和VR等高級視頻體驗的數(shù)據(jù)量非常龐大。這些沉浸式視頻技術(shù)的普及應(yīng)用將有賴于視頻壓縮增益的提高。
那么,我們?nèi)绾尾拍転榉坡少e農(nóng)村地區(qū)的移動用戶在100kbps的帶寬下提供高清版《怪奇物語》呢?我們又如何在無需25Mbps寬帶的情況下傳輸一集非常清晰的4K HDR WCG(寬色域技術(shù))版《主廚的餐桌》呢?顛覆性的全新想法亟待更多深入的協(xié)同與合作,還有像PCS 2018這種供我們分享、學(xué)習(xí)和反思的平臺。
受到我們Netflix的產(chǎn)品角色、與標(biāo)準(zhǔn)化團體和工業(yè)界合作伙伴的接觸、以及與學(xué)術(shù)機構(gòu)研究合作的影響,我們想要分享一下Netflix對于視頻編碼研究現(xiàn)狀的一些疑問與思考。在我們著手安排PCS 2018特別會議、主題演講和特邀報告等活動時,這些想法在不斷激勵著我們。
用創(chuàng)新來超越(傳統(tǒng))基于塊的混合編碼
MPEG-2,VC1,H.263,H.264/AVC,H.265/HEVC,VP9,AV1——所有這些標(biāo)準(zhǔn)都建立在基于塊的混合視頻編碼結(jié)構(gòu)上。也曾有人試圖擺脫這種傳統(tǒng)模式,但均以失敗告終。某些技術(shù)貌似脫離了傳統(tǒng)模式(比如分布式視頻編碼),然而卻不適合在實際中普遍應(yīng)用。在多數(shù)其他情況下,人們并沒有投入足夠的資源推動新技術(shù)的成熟。不幸的是,新技術(shù)是根據(jù)目前已有的最先進的編碼器進行評估的,其編碼工具已歷經(jīng)了數(shù)十年的研究提煉。于是人們很容易就會認(rèn)為新技術(shù)“不成氣候”,從而放棄繼續(xù)對其進行深入研究。我們是否因為拒絕給新技術(shù)成長的機會,而錯失了更好、更高效的技術(shù)了呢?如果我們僅僅停留在前人鋪設(shè)好的道路上,固守于傳統(tǒng)的編碼工具,我們還有可能消除更多的冗余比特?
業(yè)界急需尋找更好的衡量視頻質(zhì)量的方法
在發(fā)表學(xué)術(shù)著作、進行標(biāo)準(zhǔn)化活動,以及業(yè)界評估編碼器時,PSNR仍然是衡量編碼性能的黃金準(zhǔn)則。然而,每個視頻編碼領(lǐng)域的人都說,PSNR并不能準(zhǔn)確反映人類對于視頻質(zhì)量的感受。諸如自適應(yīng)量化和心理視覺優(yōu)化這類編碼工具,雖紛紛聲稱能夠提高視覺質(zhì)量,但在PSNR方面的表現(xiàn)卻不盡如人意。所以研究人員和工程師們花費了大量人力進行主觀視覺測試,以增加客觀測量數(shù)據(jù)。雖然這種評估方法已經(jīng)延續(xù)使用了幾十年,但卻并不適用于大規(guī)模的評估,特別是當(dāng)測試集所涵蓋的視頻內(nèi)容繁多而質(zhì)量范圍又很廣時。為了使視頻編碼行業(yè)能更快更準(zhǔn)地進行創(chuàng)新,人們應(yīng)當(dāng)利用更能反映人類感知的自動視頻質(zhì)量評估技術(shù)。這些新的評估標(biāo)準(zhǔn)必須得到業(yè)內(nèi)廣泛的認(rèn)同和采納,因此有必要進行開放性的獨立驗證。在未解決自動視頻質(zhì)量評估這一難題的情況下,我們是否有自信能繼續(xù)推進視頻編碼技術(shù)的發(fā)展呢?
創(chuàng)新想法的迸濺需要集思廣益
我(Anna)三年前第一次參加MPEG會議,會上我展示了一篇有關(guān)Netflix未來視頻編碼用例的報告。我聲稱對于Netflix應(yīng)用程序來說,如果能使壓縮效果顯著提高,那么以增加編碼復(fù)雜度為代價也沒有關(guān)系。我們的程序使用云計算,并且不要求實時性。大會主席問我:“復(fù)雜度增加多少是你可接受的范圍呢?”我之前并沒有準(zhǔn)備過這個問題,所以腦子里大致估計了一個上限,說“在最壞的情況下是100倍”。在場的一百多名視頻標(biāo)準(zhǔn)化專家全都大笑起來。我很困惑地看著主席。他說:“別擔(dān)心,他們笑只是因為很高興能嘗試新鮮事物。通常大家會說3倍(而不是100倍)。”雖然我們都沉浸在視頻編碼的世界中,但我的觀點讓卻他們感到驚訝,反之亦然。
當(dāng)今的視頻編碼行業(yè)由學(xué)術(shù)界的研究組織、視頻標(biāo)準(zhǔn)化機構(gòu)、實現(xiàn)視頻編碼技術(shù)的公司以及部署視頻服務(wù)的娛樂公司組成。我們怎樣才能促進更多的思想交流,合同協(xié)作,同舟共濟呢?
PCS 2018——構(gòu)建溝通融合的橋梁
為了消除更多人臉上的迷茫與困惑,為了能迎來更多驚喜的時刻,我們?yōu)镻CS 2018安排了一系列“溝通融合”會議。這些會談和小組討論旨在增進PCS學(xué)術(shù)研究人員與工業(yè)界相關(guān)領(lǐng)域的連結(jié)。
正如CVPR與CLIC研討會上所展示的那樣,計算機視覺和機器學(xué)習(xí)領(lǐng)域的研究人員很激動能將這些新技術(shù)應(yīng)用于圖像壓縮領(lǐng)域。JohannesBallé將為大家介紹新興的習(xí)得型圖像壓縮技術(shù),并總結(jié)CVPR與CLIC研討會的結(jié)果。
來自ITU-T VCEG和ISO/IEC MPEG團隊的視頻專家們正在積極研究下一代標(biāo)準(zhǔn)VVC。本次大會的聯(lián)合主席Gary J. Sullivan和Jens-Rainer Ohm教授將對研究結(jié)果進行總結(jié),以鼓勵學(xué)術(shù)界研究人員與工業(yè)界潛在用戶們的積極反饋和參與。
為了解決視頻編碼技術(shù)領(lǐng)域的學(xué)術(shù)研究人員、標(biāo)準(zhǔn)化研究人員以及工業(yè)界用戶之間的脫節(jié),我們邀請了多位活躍于大規(guī)模視頻編碼技術(shù)領(lǐng)域的工程帶頭人——來自Facebook的Michael Coward,來自Twitter的Mark Kalman,與來自YouTube的Balu Adsumilli。他們將在專題討論會上和我們分享他們在VOD和實時視頻流媒體服務(wù)的大規(guī)模編碼方面的想法和經(jīng)驗。
為了解決當(dāng)今視頻壓縮技術(shù)領(lǐng)域的一些關(guān)鍵問題,我們還安排了與“圖像視頻壓縮領(lǐng)域的機器學(xué)習(xí)技術(shù)”、“評估圖像視頻質(zhì)量的工業(yè)應(yīng)用”,以及“VR視頻內(nèi)容的準(zhǔn)備與壓縮技術(shù)”相關(guān)的特別會議。此外,來自麻省理工學(xué)院的Vivienne Sze教授、來自德克薩斯大學(xué)奧斯汀分校的Al Bovik教授,以及來自紐約大學(xué)的姚耀教授還將為我們帶來精彩的主題演講。
LiveVideoStackCon 2018講師招募
LiveVideoStackCon 2018是音視頻技術(shù)領(lǐng)域的綜合技術(shù)大會,今年是在10月19-20日在北京舉行。大會共設(shè)立18個專題,預(yù)計邀請超過80位技術(shù)專家。如果你在某一領(lǐng)域獨當(dāng)一面,歡迎申請成為LiveVideoStackCon 2018的講師,讓你的經(jīng)驗幫到更多人,你可以通過speaker@livevideostack.com提交演講信息。了解大會更多詳情,點擊【閱讀原文】訪問LiveVideoStackCon 2018官網(wǎng),報名即刻享受7折優(yōu)惠。
總結(jié)
- 上一篇: 音视频技术开发周刊 54期
- 下一篇: 6.23 NIUDAY 深圳站 | 从新