Demuxed:编解码器和压缩的未来
Demuxed視頻工程師年會(huì)生產(chǎn)了來(lái)自Akamai、YouTube、Mux和其它許多人必看的演講內(nèi)容,資深多媒體技術(shù)咨詢(xún)師Jan Ozer對(duì)會(huì)議中感興趣的部分內(nèi)容進(jìn)行了回顧與總結(jié)。LiveVideoStack對(duì)文章進(jìn)行了翻譯。
文/ Jan Ozer
譯/ 元寶
原文?
http://www.streamingmedia.com/Articles/Editorial/Featured-Articles/Demuxed-18-Highlights-The-Future-of-Codecs-and-Compression-128609.aspx
Demuxed是由視頻工程師們舉辦的視頻工程師年會(huì)。該會(huì)議于10月17日和18日在舊金山舉行,共有31名演講者以快速的方式進(jìn)行了演講,演講時(shí)間從10分鐘到30分鐘不等。用一個(gè)老套但恰當(dāng)?shù)谋扔?#xff0c;這種體驗(yàn)就像從消防水管中喝水:幾乎不可能實(shí)時(shí)理解和消化。我參加了第一天的演講,并通過(guò)Twitch.tv上的視頻庫(kù)觀(guān)看了第二天的幾場(chǎng)演講。
總的來(lái)說(shuō),視頻是各主題的寶貴信息來(lái)源。在這個(gè)故事中,我將回顧一些我覺(jué)得最有趣的演講,這些演講顯然對(duì)我來(lái)說(shuō)是獨(dú)一無(wú)二的。在瀏覽下面的列表之前,我強(qiáng)烈建議您回顧一下完整的演講者和主題列表(https://demuxed.com/)。你可能會(huì)發(fā)現(xiàn)除了下面我所討論的,還會(huì)想看更多的演講,這些演講都是按照演講順序列出的。
Demuxed 第一天
會(huì)議以Fubo.TV的Billy Romero和Thomas Symborski的一場(chǎng)名為“用HDR播放2018年FIFA世界杯”的演講下拉開(kāi)帷幕。演習(xí)的目的是提供一個(gè)四級(jí)HEVC編碼階梯,范圍從2160p(16Mbps)到720p(3.5Mbps),全部采用HDR10 HDR元數(shù)據(jù)(圖1)。整個(gè)工作流程基于云,并涉及在A(yíng)WS C5.18 X-Large實(shí)例上對(duì)云中的70 Mbps輸入源進(jìn)行轉(zhuǎn)碼。
圖1.使用HDR10進(jìn)行FIFA世界杯4K傳送時(shí)使用的實(shí)例詳細(xì)信息和編碼梯形圖。
在演講中,主持人為尋求產(chǎn)生類(lèi)似體驗(yàn)的視頻工程師提供了藍(lán)圖,涵蓋了采集,編碼器選擇,打包和存儲(chǔ)以及客戶(hù)端和播放器考慮因素的網(wǎng)絡(luò)設(shè)置,包括向亞馬遜Fire TV / Android TV,Roku,Chromecast Ultra和Apple TV設(shè)備提供使用ExoPlayer,AVF,Roku,Shaka和Bitmovin播放器的經(jīng)驗(yàn)。最終,主持人建議與會(huì)者“快速失敗,快速學(xué)習(xí),專(zhuān)注于用戶(hù)體驗(yàn)”。
下一個(gè)演講是來(lái)自Mux的Ben Dodson和Nick Chadwick的“Per-Title(按標(biāo)題)編碼后要做什么”。在快節(jié)奏的演講中,Dodson和Chadwick回顧了Per-Title編碼的歷史,以及許多基礎(chǔ)理論和挑戰(zhàn)。然后,這對(duì)組合詳細(xì)說(shuō)明了Mux如何使用機(jī)器學(xué)習(xí)構(gòu)建自己的Per-Title編碼工具,以及Per-Title編碼如何擴(kuò)展到Per-Scene(按場(chǎng)景)編碼,從而支持實(shí)時(shí)的Per-Title編碼。這是一個(gè)密集且技術(shù)上具有挑戰(zhàn)性的演示文稿,任何一個(gè)設(shè)計(jì)Per-Title或Per-Scene編碼器的人都會(huì)發(fā)現(xiàn)它是無(wú)價(jià)的。
感知視頻質(zhì)量是我們工作的核心,Twitter的Sebastiaan Van Leuven的演講“移動(dòng)設(shè)備的主觀(guān)視頻質(zhì)量評(píng)估”就直接解決了這個(gè)問(wèn)題。在他十分鐘的演講中,Van Leuven首先回顧了兩種常用的測(cè)量視頻質(zhì)量的技術(shù),單刺激和雙刺激平均意見(jiàn)得分(MOS)。簡(jiǎn)而言之,單刺激顯示單個(gè)樣本并要求在五個(gè)等級(jí)上進(jìn)行評(píng)級(jí),而雙刺激顯示原始視頻然后是編碼樣本,并請(qǐng)求相似的等級(jí)。雖然易于部署,但兩種測(cè)試方法在精度和一致性方面得分都很低,不同的測(cè)試人員對(duì)同一視頻的評(píng)分和相同的測(cè)試人員在不同的日期對(duì)同一視頻進(jìn)行評(píng)級(jí)。
為了提高一致性和可靠性,Twitter開(kāi)發(fā)了一個(gè)自適應(yīng)配對(duì)比較(APC),它顯示兩個(gè)樣本,并詢(xún)問(wèn)受試者哪個(gè)更好,就像驗(yàn)光師問(wèn):“哪個(gè)看起來(lái)更好,左邊還是右邊?”這種測(cè)試方法可以產(chǎn)生更準(zhǔn)確和可重復(fù)性的結(jié)果,但也可能非常耗時(shí)。關(guān)于Twitter方法的新穎之處在于使用粒子濾波模擬的主動(dòng)學(xué)習(xí)過(guò)程,該模擬簡(jiǎn)化了樣本選擇。這個(gè)簡(jiǎn)短的演講提供了一個(gè)概述,Van Leuven補(bǔ)充了一個(gè)博客文章的鏈接(https://blog.twitter.com/engineering/en_us/topics/insights/2018/videoqualityonmobile.html)。
使用dav1d加速AV1播放
開(kāi)放媒體聯(lián)盟(AOM)AV1編解碼器于2018年中期推出,但硬件加速播放預(yù)計(jì)要到2020年中期才能實(shí)現(xiàn)。這使得軟件解碼器效率對(duì)于未來(lái)24個(gè)月的部署絕對(duì)至關(guān)重要。使用AOM解碼器libaom進(jìn)行AV1解碼的許多初始測(cè)試,包括我自己的(http://www.streamingmedia.com/Articles/Editorial/Featured-Articles/AV1-A-First-Look-127133.aspx),都表明AV1解碼速度慢且效率低下。出于這個(gè)原因,AOM贊助了由VideoLAN,VLC和FFmpeg社區(qū)開(kāi)發(fā)的一種名為dav1d的新型開(kāi)源AV1解碼器。
在他們的題為“引入dav1d”的演講中,“一個(gè)新的AV1解碼器”,VideoLAN的Jean-Baptiste Kempf和兩個(gè)Oriole的Ronald Bultje描述了該項(xiàng)目的目標(biāo),包括更小的源代碼,更小的二進(jìn)制可執(zhí)行文件,以及比libaom更小的運(yùn)行時(shí)內(nèi)存占用。在演講中,Bultje回顧了迄今為止dav1d的性能,并預(yù)測(cè)完全實(shí)現(xiàn)后,它將產(chǎn)生與H.264,HEVC和VP9類(lèi)似的解碼性能。雖然這與硬件支持的編解碼器的解碼效率不匹配,但它肯定會(huì)擴(kuò)展AV1的使用范圍,遠(yuǎn)遠(yuǎn)超出libaom可以采用的范圍。根據(jù)這篇博客文章(http://www.jbkempf.com/blog/post/2018/Introducing-dav1d),dav1d目前適用于x86,x64,ARMv7,ARMv8硬件,可在Windows,Linux,macOS,Android和iOS上運(yùn)行。
正如RealEye Media的David Hassoun在他的演講中指出的那樣,“多CDN跳轉(zhuǎn)開(kāi)始,不要把所有比特放在一個(gè)籃子里”,使用單個(gè)CDN交付流量意味著一個(gè)單點(diǎn)故障,無(wú)論何時(shí)流交付是關(guān)鍵任務(wù),這都是不可接受的風(fēng)險(xiǎn)。正如Hassoun也提到的,單一的CDN也可能不能為許多用戶(hù)提供最好的體驗(yàn),也可能沒(méi)有成本效益。?
得出這些觀(guān)點(diǎn)后,Hassoun確定了使用多個(gè)CDN的常見(jiàn)問(wèn)題,例如實(shí)時(shí)流的同步起源,流量路由,接收QoS和QoE的可操作的實(shí)時(shí)數(shù)據(jù)以及跨CDN訪(fǎng)問(wèn)安全性。然后,他提出了這些問(wèn)題的多個(gè)解決方案,以及如何構(gòu)建多個(gè)CDN支持,一直到清單文件的創(chuàng)建。在分配的十分鐘內(nèi)覆蓋了大量的內(nèi)容,對(duì)于任何考慮嘗試多個(gè)CDN交付的人來(lái)說(shuō),這個(gè)演示都是必須的(圖2)。
圖2.向動(dòng)態(tài)主播放列表添加多個(gè)CDN支持。
減少Glass-to-Glass延遲?
Glass-to-Glass的延遲是許多現(xiàn)場(chǎng)活動(dòng)制作人一直關(guān)注的問(wèn)題。雖然有幾種專(zhuān)有方法可以減少實(shí)時(shí)延遲,例如Wowza Streaming Cloud的超低延遲服務(wù),但這種方法可能無(wú)法滿(mǎn)足大型事件所需的規(guī)模。
Akamai的Will Law在他的演講題為“Chunky Monkey, Using Chunked-Encoded Chunked-Transferred CMAF to Bring Low Latency Live to Very Large Scale Audiences.”中全面描述了Chunked CMAF。圖3說(shuō)明了這種方法。最重要的是傳遞分段的傳統(tǒng)方式,它一直等到它完全定型并存儲(chǔ)起來(lái)。底部顯示了以塊的形式打包的相同媒體樣本,可以在完整片段編碼和保存之前傳送,從而大大減少延遲。
圖3.頂部是完成后交付的單個(gè)段。在底部是相同的樣本打包在塊中交付chunk塊。
雖然這種方法可以減少延遲并簡(jiǎn)化網(wǎng)絡(luò)吞吐量,但它也會(huì)引起許多問(wèn)題,例如如何估算帶寬以及如何解決HLS和DASH之間的時(shí)序差異。Law討論了這些問(wèn)題的不同解決方案,并總結(jié)了用于分塊CMAF的標(biāo)準(zhǔn)化工作,以及用于實(shí)現(xiàn)該方法的商業(yè)供應(yīng)商和開(kāi)源工具。
最后一個(gè)演講是“Fabio Sonnati的'Time Machine','如何在回放過(guò)程中感知重構(gòu)編碼過(guò)程中丟失的部分細(xì)節(jié)。”作為背景,Sonnati是數(shù)字視頻編碼的先驅(qū),其關(guān)于每個(gè)標(biāo)題編碼和FFmpeg的文章為包括我自己在內(nèi)的許多從業(yè)者提供了重要的基礎(chǔ)。這是我第一次親自見(jiàn)到Fabio并看到他講話(huà)。
在他的演講中,Sonnati探討了在播放過(guò)程中是否有可能重建壓縮過(guò)程中丟失的部分質(zhì)量。他首先確定了編碼過(guò)程中產(chǎn)生的經(jīng)典編碼偽像,其中包括精細(xì)細(xì)節(jié)和膠片顆粒的損失,條紋以及對(duì)比度和平面度的降低。鑒于我們知道這些發(fā)生,Sonnati詳細(xì)說(shuō)明了我們?nèi)绾卧诮鈮哼^(guò)程中解決這些問(wèn)題(圖4),并展示了幾個(gè)通過(guò)部署這些技術(shù)實(shí)現(xiàn)VMAF質(zhì)量顯著提高的實(shí)驗(yàn)。
圖4.在解壓縮和顯示期間修復(fù)與編碼相關(guān)的問(wèn)題。
在操作上,Sonnati聲稱(chēng)這些增強(qiáng)功能可以在使用WebGL的現(xiàn)代瀏覽器中實(shí)現(xiàn),包括在可以提供最大利益的移動(dòng)設(shè)備上。但是,在廣泛部署之前,必須解決性能調(diào)優(yōu)和邏輯方面的考慮。
Demuxed第二天
如上所述,我只參加了會(huì)議的第一天,因此整天有兩個(gè)觀(guān)察來(lái)自存檔視頻,我主要關(guān)注與編碼相關(guān)的演講上。我觀(guān)看的第一個(gè)演講是Mux創(chuàng)始人Jon Dahl的演講題為“視頻,進(jìn)化和引力:科學(xué)如何影響數(shù)字視頻”。正如標(biāo)題所示,Dahl探討了人類(lèi)生理學(xué)和物理學(xué)如何為視頻編碼和制作的許多基礎(chǔ)做出貢獻(xiàn),包括寬高比、幀速率和色彩管理。
在解決的眾多問(wèn)題中,Dahl用“Jon’s Law”量化了為什么許多攝像師(包括這位作者)討厭垂直方向的視頻,“Jon’s Law”假定“垂直方向的適當(dāng)性隨著變化的數(shù)量呈指數(shù)級(jí)下降”。這就解釋了為什么在人像模式下拍攝的靜止圖像看起來(lái)如此棒,而體育賽事的垂直圖像片段看起來(lái)卻如此糟糕。最后,Dahl提出,所有的視頻制作者都可以從學(xué)習(xí)人類(lèi)感知背后的科學(xué)中獲益,從而更好地指導(dǎo)他們的創(chuàng)造性和發(fā)展努力。
接下來(lái)是John Bartos關(guān)于低延遲HLS的演講,這是對(duì)Will Law關(guān)于分塊CMAF的討論的一個(gè)很好的補(bǔ)充。除了是JW Player的高級(jí)軟件工程師之外,Bartos還是開(kāi)源播放器HLS.js的核心維護(hù)者之一,HLS.js是一個(gè)JavaScript HLS客戶(hù)端,它在瀏覽器中使用媒體源擴(kuò)展來(lái)播放HLS和其他ABR格式。Bartos描述了他希望如何在不使用WebRTC或RTMP等技術(shù)“顛覆”視頻堆棧的情況下將HLS播放延遲從30秒減少到大約2秒。
簡(jiǎn)而言之,低延遲HLS的工作原理是通過(guò)在清單文件中發(fā)布低延遲段,然后通過(guò)如上所述的Law的演講中的分塊傳輸編碼來(lái)傳輸它們。然后,服務(wù)器將分段塊從代碼轉(zhuǎn)換器推送到客戶(hù)端以進(jìn)行回放。雖然這聽(tīng)起來(lái)很簡(jiǎn)單,但所需的代碼轉(zhuǎn)換器/服務(wù)器/客戶(hù)端集成使這項(xiàng)技術(shù)更好地通過(guò)標(biāo)準(zhǔn)實(shí)現(xiàn),Bartos最后列出了一些參與創(chuàng)建低延遲HLS標(biāo)準(zhǔn)的公司。
我觀(guān)看的下一個(gè)環(huán)節(jié)是康卡斯特的Alex Gilardi,題為“在多幀率編碼中循環(huán)利用的優(yōu)點(diǎn)””。高級(jí)問(wèn)題是,在生成編碼階梯時(shí),大多數(shù)編碼器對(duì)每個(gè)層執(zhí)行某種程度的分析,這是一種浪費(fèi),因?yàn)樵匆曨l對(duì)于所有層都是相同的。
在回收過(guò)程中,Galardi指的是在低分辨率編碼期間收集的分析信息,這些信息可以用于更高分辨率的編碼,圖5中的流程表明了這一點(diǎn)。在某些情況下,必須對(duì)較低分辨率的信息進(jìn)行細(xì)化,以應(yīng)用于較高分辨率的文件,這一事實(shí)使這種回收復(fù)雜化。在他的演講中,Galardi討論了三種不同的改進(jìn)方案,其中最快的一種在使用HEVC編解碼器編碼高分辨率文件時(shí),速度提高了2.43x,而沒(méi)有質(zhì)量損失。請(qǐng)注意,雖然這種方法減少了編碼所花費(fèi)的總CPU周期,但與并行編碼器相比,它會(huì)增加端到端延遲,因?yàn)檩^低分辨率的文件需要在較高分辨率的文件之前進(jìn)行編碼。此模式使此方法對(duì)于實(shí)時(shí)編碼不切實(shí)際。
圖5.重用分析信息以加速編碼階梯的生成。
Comcast使用HEVC證明了這種方法,它也應(yīng)該適用于其他編解碼器,如AV1和VP9。在他的最后一張幻燈片中,Galardi包含了實(shí)現(xiàn)這種方法所必需的FFmpeg腳本,這無(wú)疑會(huì)簡(jiǎn)化實(shí)驗(yàn)。
部署主觀(guān)視頻質(zhì)量評(píng)估
引起我注意的下一個(gè)演講是來(lái)自英特爾的Vasavee Vijayaraghavan,他的演講題目是“衡量感知視頻質(zhì)量及其原因”。Vijayaraghavan首先描述了SSIM和PSNR等客觀(guān)指標(biāo),它們是可自動(dòng)化的,因此易于使用。然而,她指出,這些指標(biāo)往往與人類(lèi)視覺(jué)系統(tǒng)不準(zhǔn)確相關(guān),這限制了它們的效用。
相反,產(chǎn)生平均意見(jiàn)得分(MOS)的主觀(guān)評(píng)價(jià)是耗時(shí)和昂貴的,但卻是人類(lèi)評(píng)級(jí)的最佳預(yù)測(cè)指標(biāo)。在英特爾進(jìn)行的4K編碼測(cè)試中,Vijayaraghavan發(fā)現(xiàn)高于MOS等級(jí)4.5的分?jǐn)?shù)對(duì)于觀(guān)眾來(lái)說(shuō)是難以察覺(jué)的,并且建議設(shè)置比特率以產(chǎn)生4.5或大約13 Mbps的最大MOS等級(jí)(圖6)。如下所示,與更高的數(shù)據(jù)速率編碼相比,這仍然帶來(lái)了非常顯著的帶寬節(jié)省。
圖6.英特爾發(fā)現(xiàn)高于4.5的MOS評(píng)級(jí)沒(méi)有產(chǎn)生明顯的改善。
在生產(chǎn)環(huán)境中,Vijayaraghavan建議通過(guò)從最常用的內(nèi)容類(lèi)型中選擇有代表性的視頻,在不同的視頻質(zhì)量點(diǎn)進(jìn)行編碼,并測(cè)量MOS分?jǐn)?shù),實(shí)現(xiàn)每個(gè)類(lèi)別的編碼方案。一旦確定了適當(dāng)?shù)淖畲笏俾?#xff0c;就可以創(chuàng)建適當(dāng)?shù)木幋a階梯,并將其應(yīng)用于該類(lèi)別中的所有視頻。但是,她警告說(shuō),必須對(duì)每個(gè)內(nèi)容類(lèi)別和編碼器/編解碼器分別執(zhí)行這種分析。
我觀(guān)看的最后一個(gè)演講是來(lái)自YouTube的Stephen Robertson,他本應(yīng)該講ABR在生產(chǎn)中的機(jī)器學(xué)習(xí)。然而,顯然,YouTube上的機(jī)器學(xué)習(xí)尚未投入生產(chǎn),因此Robertson做了一個(gè)關(guān)于多個(gè)主題的巡回演講,包括在YouTube上實(shí)施機(jī)器學(xué)習(xí)的挑戰(zhàn)以及一些非常有趣的視頻質(zhì)量研究。
在更實(shí)際的層面上,他開(kāi)始講述YouTube在10月中旬每秒分發(fā)大約1 GB的AV1編碼視頻,他預(yù)計(jì)到10月底它將增加到超過(guò)1 TB /秒。他確實(shí)分享說(shuō)AV1不是最具成本效益的方法,但YouTube正在部署AV1,以表明他們對(duì)編解碼器“極其認(rèn)”并“致力于其成功”。
總體而言,各種主題和演講者使Demuxed成為所有視頻制作人的寶貴資源。同樣,我建議您瀏覽一下演講列表(https://demuxed.com/),看看是否有適合您實(shí)踐的演講。
精品文章推薦
技術(shù)趨勢(shì):
UDP成為低延時(shí)流媒體關(guān)鍵 選SRT還是QUIC?
BBR如何讓Spotify流媒體更流暢?
CMAF將在2019年得到快速發(fā)展
YouTube高效傳輸策略:節(jié)省14%帶寬 用戶(hù)體驗(yàn)提升
技術(shù)干貨:
騰訊視頻全網(wǎng)清晰度提升攻堅(jiān)戰(zhàn)
熊貓TV直播H5播放器架構(gòu)探索
馮迅:YY多媒體實(shí)時(shí)傳輸系統(tǒng)演進(jìn)
下一代低延時(shí)直播CDN:HLS、RTMP 與UDP +WebRTC
總結(jié)
以上是生活随笔為你收集整理的Demuxed:编解码器和压缩的未来的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 雷辉:让视频会议conferencing
- 下一篇: 音视频技术开发周刊 75期