音视频技术的高光时刻: LiveVideoStackCon 2019上海 音视频技术大会
Mux 流媒體專家Phil Cluff在4月19、20日舉辦的LiveVideoStackCon 2019上海音視頻技術(shù)大會(huì)中發(fā)表了主題演講,并根據(jù)自己在大會(huì)中的所見所聞,對(duì)其它部分精彩內(nèi)容進(jìn)行了詳細(xì)的分析與總結(jié)。
文 / Phil Cluff
譯 / John
原文?
https://mux.com/blog/highlights-livevideostackcon-shanghai-2019/
上個(gè)月,我很榮幸地被邀請(qǐng)參加在上海舉辦的LiveVideoStackCon 2019 音視頻技術(shù)大會(huì)并就如何設(shè)計(jì)出色的視頻API進(jìn)行了主題演講。不得不說,這是一場由LiveVideoStack組織的專注于在線流媒體等音視頻技術(shù)、服務(wù)與解決方案的饕餮盛宴。
LiveVideoStackCon 2019對(duì)我們——Mux與Demuxed會(huì)議的運(yùn)營者來說是一個(gè)不錯(cuò)的能與音視頻行業(yè)的優(yōu)秀同仁溝通交流機(jī)會(huì),因此我決定跨越大半個(gè)地球來到令人驚嘆的上海參加這場技術(shù)大會(huì)。
為期兩天的LiveVideoStackCon 2019 上海吸引了400-500名中國最優(yōu)秀、最具創(chuàng)新力的音視頻工程師。在這場大會(huì)中我不僅發(fā)表了主題演講,還參與了多場講座與圓桌會(huì)議,內(nèi)容包括但不限于AI+多媒體、視頻編解碼、開源技術(shù)棧與多媒體傳輸網(wǎng)絡(luò)。雖然我的中文不算出色,但憑借在音視頻領(lǐng)域的多年耕耘與谷歌翻譯的良好協(xié)助,我完全體會(huì)到了與會(huì)嘉賓和觀眾的熱情以及音視頻技術(shù)不斷發(fā)展的澎湃動(dòng)力。
?
中國正在成為機(jī)器學(xué)習(xí)的領(lǐng)導(dǎo)者
盡管在Mux,我們認(rèn)為自己是將機(jī)器學(xué)習(xí)應(yīng)用在音視頻領(lǐng)域的行業(yè)領(lǐng)導(dǎo)者——例如我們的基于機(jī)器學(xué)習(xí)的Per-Title編碼解決方案與和自適應(yīng)編碼相關(guān)的產(chǎn)品等;但讓我們感到震驚的是,我們?cè)贚iveVideoStackCon上看到的大量基于機(jī)器學(xué)習(xí)的解決方案與商業(yè)應(yīng)用,從TCP的選擇到圖像識(shí)別優(yōu)化,都是借助神經(jīng)網(wǎng)絡(luò)得以實(shí)現(xiàn)。我們十分期待能在Demuxed 2019看到這樣機(jī)器學(xué)習(xí)的行業(yè)應(yīng)用百花齊放的局面。
來自中興微電子的人工智能首席科學(xué)家徐科借主題演講,深入淺出地分享了如何將機(jī)器學(xué)習(xí)運(yùn)用于視頻傳輸與分析當(dāng)中;除此之外徐科還談到了機(jī)器學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的一些挑戰(zhàn)并提供了一系列應(yīng)用實(shí)例,讓我倍感驚訝的是在這場演講上,徐科對(duì)去年十月在“自然”雜志上發(fā)表的一篇題為《基于倫理學(xué)的機(jī)器學(xué)習(xí)實(shí)驗(yàn)(“The Moral Machine experiment” )》的論文進(jìn)行了可視化分析。此實(shí)驗(yàn)旨在分析危險(xiǎn)發(fā)生時(shí)人們的主觀選擇對(duì)于機(jī)器學(xué)習(xí)算法的影響,并揭露了不同國家與地區(qū)文化和社會(huì)的差異——例如當(dāng)危機(jī)發(fā)生時(shí),英國人相對(duì)于美國人更愿意把更多生存的機(jī)會(huì)留給年輕人。
?
我最喜歡的基于機(jī)器學(xué)習(xí)的解決方案之一是用于選擇由智能手機(jī)拍攝的照片,其最佳曝光后處理設(shè)置參數(shù)的機(jī)器學(xué)習(xí)訓(xùn)練算法,該算法由同濟(jì)大學(xué)開發(fā)并逐漸落地。除了執(zhí)行所有我們已知的傳統(tǒng)方法,此解決方案還執(zhí)行了Google的“Auto Awesome”特性。
為什么中國會(huì)成為機(jī)器學(xué)習(xí)領(lǐng)域的領(lǐng)導(dǎo)者?從一些研究機(jī)構(gòu)給出的結(jié)果我們不難找到答案——首先,中國擁有全球規(guī)模最大的消費(fèi)電子市場,這不僅僅是因?yàn)橹袊鴵碛腥澜缱疃嗟娜丝跀?shù)量,還因?yàn)橹袊鴵碛幸粋€(gè)以技術(shù)為導(dǎo)向的社會(huì)與市場。與西方相比,中國的移動(dòng)支付技術(shù)正經(jīng)歷著爆炸式增長。據(jù)觀察,中國政府對(duì)人工智能研究的投入大大高于其他任何西方國家,尤其對(duì)于圖像分析和面部識(shí)別的研究更是頗為重視,西方國家需要花費(fèi)很大資源與時(shí)間才能趕上中國現(xiàn)在取得的技術(shù)水平。
中國仍在繼續(xù)推進(jìn)自己的視頻編解碼器
在之前的很長一段時(shí)間內(nèi),我并沒有在維基百科等渠道聽說過AVS(Audio Video Standard)——一個(gè)幾乎只在中國開發(fā)與使用的音視頻多媒體編解碼器。AVS的第一個(gè)版本實(shí)現(xiàn)了足以比肩MPEG 2與H.264的壓縮比,其中編解碼器的更新版本AVS +壓縮效果大致與H.264相當(dāng)。AVS解碼器通常位于機(jī)頂盒中以接收有線和衛(wèi)星廣播,在一些Android電視或機(jī)頂盒中我們可以發(fā)現(xiàn)AVS系編解碼器的存在。而自亞馬遜宣布推出Alexa語音服務(wù)以來,依賴Google Android的AVS發(fā)展面臨重重阻力,特別是因?yàn)锳lexa現(xiàn)在開始越來越多地出現(xiàn)在家庭智能影音設(shè)備之中。
但出乎我意料的是AVS協(xié)議仍處于積極的開發(fā)狀態(tài)中且最新的標(biāo)準(zhǔn)版本AVS2聲稱其壓縮性能已優(yōu)于HEVC。令人遺憾的是,由于未能實(shí)現(xiàn)桌面瀏覽器或iOS設(shè)備的支持,AVS2似乎不太可能在中國以外的其他地區(qū)取得商業(yè)成功,盡管與HEVC相比,AVS2具有更明智的專利池結(jié)構(gòu)。
基于AV1的商用編碼器不斷涌現(xiàn)
?
雖然諸多中國公司繼續(xù)對(duì)AVS2等本土編解碼器追加投資,但開源編解碼器特別是AV1仍為大家關(guān)注的重點(diǎn)。來自騰訊的劉杉借主題演講對(duì)當(dāng)前編解碼器的總體發(fā)展進(jìn)行了精彩的闡述,而Zoe Liu則以AV1的更新為主題,詳細(xì)介紹了rav1e與dav1d的最新改進(jìn);除此之外,Zoe Liu的公司Visionular構(gòu)建了一套基于機(jī)器學(xué)習(xí)的增強(qiáng)型視頻編碼器,她展示了這套全新開發(fā)的AV1編碼器Aurora的一些參數(shù)與數(shù)據(jù)。從質(zhì)量和性能的角度來看,目前Aurora的綜合性能優(yōu)于libaom;而某些測(cè)試序列的VMAF得分則提高了30%以上,在質(zhì)量和編碼性能方面Aurora也優(yōu)于lib-x265。值得注意的是,libaom并未針對(duì)性能進(jìn)行特別優(yōu)化,而是被設(shè)計(jì)成參考級(jí)編碼器。
盡管Zoe并沒有比較Aurora與rav1e或SVT-AV1,盡管兩者都可在許可證下免費(fèi)獲得,但我們相信,為了與免費(fèi)產(chǎn)品競爭,Aurora必須表現(xiàn)出足夠的速度或質(zhì)量改進(jìn)。然而Visionular宣稱即將推出一款軟件實(shí)時(shí)編碼器,這在商業(yè)市場上還屬首例。
在Mux,我們將繼續(xù)研究、開發(fā)和測(cè)試AV1生態(tài)系統(tǒng)中的商業(yè)與免費(fèi)軟件。我們堅(jiān)信開放的編解碼器生態(tài)系統(tǒng)適合每一個(gè)參與音視頻行業(yè)建設(shè)的開發(fā)者,我們希望為此生態(tài)系統(tǒng)的良性發(fā)展作出貢獻(xiàn)。
備用TCP堆棧逐漸普及
TCP的舉足輕重有目共睹。盡管在大多數(shù)互聯(lián)網(wǎng)設(shè)備與服務(wù)中被使用,但TCP并非為互聯(lián)網(wǎng)而生?,F(xiàn)代網(wǎng)絡(luò)架構(gòu)與CDN并不一定需要TCP中存在的積極擁塞與流量控制機(jī)制。
很長一段時(shí)間以來,企業(yè)為了提高數(shù)據(jù)吞吐量,減少延遲并增強(qiáng)數(shù)據(jù)鏈路的可靠性,一直在嘗試實(shí)現(xiàn)兼容TCP的網(wǎng)絡(luò)堆棧。其中嘗試的一些方法依賴于在已經(jīng)接收到先前有效載荷的TCP ACK之前搶先發(fā)送的后續(xù)數(shù)據(jù)序列,其目的是有效調(diào)整擁塞控制算法。但此類型技術(shù)需要被微調(diào)以減少阻礙正常帶寬的風(fēng)險(xiǎn), TCP應(yīng)當(dāng)與同一網(wǎng)絡(luò)上更傳統(tǒng)的TCP實(shí)現(xiàn)共存。
來自Akamai的Will Law在LiveVideoStackCon上借主題演講詳細(xì)闡述了Akamai如何通過兼容各種不同的TCP以提供最佳性能的TCP協(xié)議加速技術(shù),包括FastTCP(2012年被Akamai收購)、BBR(Google的TCP替代方案,被Fastly與Spotify使用)、RENO與CUBIC等。與此同時(shí),Akamai正致力于訓(xùn)練神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以識(shí)別出在每個(gè)HTTP請(qǐng)求中使用何種擁塞控制算法以達(dá)到最佳效果。不得不說這真的很新穎!
在中國的這段時(shí)間我也有幸與Cascade Range Networks的Sean進(jìn)行了交談,并了解一些他們正嘗試使用兼容性TCP替代Linux網(wǎng)絡(luò)堆棧的探索。讓我印象深刻的是,他們借軟件部署設(shè)備之間的差異,實(shí)現(xiàn)從10美元的閉路電視攝像機(jī)到10,000美元的核心網(wǎng)絡(luò)服務(wù)器都顯示出性能的顯著提升。
我們將密切關(guān)注這一領(lǐng)域的發(fā)展。我們對(duì)Cascade Range Network的產(chǎn)品以及即將推出的谷歌BBR V2感到非常期待。
摘要
如果你有機(jī)會(huì)來到中國,那么LiveVideoStackCon將是一場不容錯(cuò)過的絕佳技術(shù)盛宴。我非常享受在上海的時(shí)光,更多是因?yàn)檫@里有著與歐美等國家截然不同的技術(shù)發(fā)展理念,讓我們學(xué)會(huì)了掌握核心技術(shù)的特別奧義。
LiveVideoStack? 招募
LiveVideoStack正在招募編輯/記者/運(yùn)營,與全球頂尖多媒及技術(shù)專家和LiveVideoStack年輕的伙伴一起,推動(dòng)多媒體技術(shù)生態(tài)發(fā)展。了解崗位信息請(qǐng)?jiān)贐OSS直聘上搜索“LiveVideoStack”,或通過微信“Tony_Bao_”與主編包研交流。
LiveVideoStackCon 2019北京正在招募講師,無論你是技術(shù)派還是學(xué)術(shù)派,亦或是行業(yè)專家,無論你的團(tuán)隊(duì)有多小、有多新,都可以來申請(qǐng)成為LiveVideoStackCon的講師。點(diǎn)擊【閱讀原文】了解更多大會(huì)相關(guān)信息。
總結(jié)
以上是生活随笔為你收集整理的音视频技术的高光时刻: LiveVideoStackCon 2019上海 音视频技术大会的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何构建高并发高可用的剧场直播云端混流服
- 下一篇: Twitch未来五年的视频编码战略:从H