降低网络拥塞,追求美好体验——对话拍乐云首席科学家章琦
??編 者 按?
成立于2019年,拍樂云是國內第一家視頻會議背景的實時互動通信云服務提供商,匯聚了一大批專注于音頻、視頻、白板、網絡、AI等領域的資深技術專家。在過去兩年間,拍樂云一直致力于幫助用戶實現高清、穩定、易用、低時延的實時互動。隨著5G和AI技術的發展以及全球疫情的影響,音視頻應用場景日益多變,拍樂云如何用更好的產品體驗為用戶提供完善的解決方案?LiveVideoStack近日采訪了拍樂云首席科學家&合伙人章琦老師,他將從產品、技術挑戰、應對策略以及AI賦能等角度和大家聊聊他對音視頻技術的理解和展望。章琦老師也是LiveVideoStackCon北京站的嘉賓講師,將在會上為我們帶來精彩的演講。
講師介紹:章琦,拍樂云首席科學家&合伙人。浙大數學系碩士畢業,20年視頻開發經驗,8年WebEx音視頻引擎架構師工作經驗,OpenH264作者,歷任虹軟、WebEx、網易等公司,精通視頻算法,也精通音視頻工程,主導了多家公司的音視頻引擎架構設計,深入理解人工智能技術以及其在實時通信領域的應用,擁有年服務千億級分鐘音視頻通話的經驗。
?
LiveVideoStack: 章老師,您好,非常高興邀請您接受采訪,您可以跟大家介紹一下您在拍樂云所負責的工作嗎?
?
章琦:我在拍樂云主要負責音視頻相關的開發工作,包括編碼解碼、音視頻引擎、前沿技術的研究等。除了開發和管理工作,我也會參與到客戶對接中。因為我們做的是toB企業服務,技術、產品、服務都很重要,所以會非常關注技術支持的對接、用戶的使用反饋。
?
?
LiveVideoStack: 我們看到,拍樂云最近推出了業內首個“線上美術音視頻方案”,這其中有一項視頻矯正技術,您能介紹一下這項技術以及它所用到的算法嗎?
?
章琦:美術線上教學場景下,視頻的內容以畫布居多。如果要完美呈現畫的內容,保證畫的空間比例關系,對拍攝的角度要求很高,需要將攝像頭對準畫布正中心,這在實際操作中其實很難,稍有偏差,作品的空間幾何關系就會變化。為了降低用戶使用難度,我們支持用戶可以隨意拍攝,在拍攝后對視頻進行矯正處理,這其中需要關注攝像頭的拍攝位置和角度,因此需要實時估計采集參數,然后求解幾何變換矩陣,最后對視頻進行處理,同時為了降低大量運算引入的時延,我們還進行了GPU優化,使整個操作在1毫秒左右,使用戶的體驗更加流暢。
LiveVideoStack: 在互聯網這條高速公路上,最常發生的就是網絡擁塞,所造成的后果就是丟包、延時和抖動,大大降低音視頻的質量,在應對網絡擁塞方面,拍樂云是如何做的呢?
章琦:拍樂云應對網絡擁塞的主要手段是帶寬預測,動態碼率調整和自適應的FEC、ARQ、PLC等技術,可以實現在極限場景下依然通話流暢。同時還采用了前向糾錯、丟包重傳和丟包隱藏三大丟包恢復策略來應對擁塞。除了弱網對抗,拍樂云還自建了Pano Backbone全球實時傳輸加速網絡,解決跨區域、跨國的鏈路問題,降低擁塞發生的概率,保障音視頻的通信質量。
LiveVideoStack:?您之前講過,所有抵抗弱網的手段都需要付出代價,也可以被認為是等價交換。這里的代價指的是什么?
?章琦:這里的代價指的是抗弱網帶來的其他性能的受損。舉例來說,傳輸上的丟包是隨機事件,在數據發送的時候無法得知這個數據是否會在傳輸時被丟。前向糾錯編碼雖然具備抗丟包能力,但是它對于數據包的保護是比較盲目的,客觀上導致傳輸效率降低。從這個角度上來說,判斷系統的抗弱網能力要避免從單一維度出發,需要全面考量。
LiveVideoStack: 您認為在未來,AI技術還能給RTC行業帶來哪些大的變化?
章琦:AI技術對整個RTC行業帶來的影響必然是非常深遠的,客觀地說,以深度學習為代表的AI技術的發展與成熟,對音視頻關鍵技術的突破提供了另一個有希望的方向。有些使用傳統技術無法解決的問題,可以通過與AI技術的融合,大大降低問題解決的難度。無論是RTC行業的核心音視頻編解碼,還是其他一些音視頻處理和增強技術,比如現在比較熱的音頻降噪、 視頻超分、對象分割識別等,在AI的加持下,都獲得了突破。
?
LiveVideoStack: 您是浙大數學系畢業,是什么樣的機緣巧合使您踏上了音視頻這條路?
章琦:我的碩士研究方向是數字圖像處理,三年求學期間,受益于我的導師葉懋東老師匪淺,只可惜當時的想法不夠成熟,在數學這個方向的學習上未能理解葉老師的深意,至今覺得遺憾。讀研期間,我還參與了信電系信息與通信工程研究所劉濟林和王興國老師的一些研究項目,他們是國內比較早研究視頻編解碼技術的團隊,在技術上,受陳國斌博士師兄影響比較大, 可以說他們幾位都是我踏上音視頻開發這條路的貴人。
?
LiveVideoStack: 在音視頻領域深耕這么多年,您能預測一下,下一個音視頻技術發展趨勢在哪里嗎?
章琦:深度學習、虛擬現實技術、3D視頻等等。深度學習在前面已有回答,這里不再贅述。虛擬現實和3D視頻會依賴于相關硬件技術的成熟,我相信這一天不會太遠了。
?
LiveVideoStack: 我了解到您平時很喜歡閱讀,如果讓您分別推薦一本音視頻領域內的技術書,和一本行業外的其他類型的書,您會推薦哪兩本?
章琦:第一本書我想推薦 Write Great Code Volume 2: Thinking Low-Level, Writing High-Level。這本書的作者是Randall Hyde,他的另一本久負盛名的作品是The Art of Assembly Language。不推薦The Art of Assembly Language 的原因是大多數同學都不會有寫匯編代碼的機會。不過不需要寫匯編代碼,并不表示你不需要掌握相關的知識,對音視頻開發來說,代碼執行的效率是非常重要的指標。不過實際工作中,我發現有相當比例的同學都不注意代碼執行的效率。可能也是不具備相關的知識和感覺. ?這本書是匯編語言的大家信手拈來之作,可以幫助你從匯編的角度來審視高級語言,理解軟件是如何在CPU上運行的,從而寫出高效且漂亮的代碼。
?Write Great Code Volume 2:?Thinking Low-Level, Writing High-Level
第二本書我想推薦的是《中的精神 – 吳清源自傳》, 在圍棋這個圈子中,吳清源是以昭和棋圣之名享譽于世的大人物。他擊敗了所有日本的一流棋手,將他們的對局棋分降為先相先或讓先,獨步日本棋壇二十余年。但是這樣一位高高在上的大人物,他的生活卻相當清貧。與之對照的是他的精神世界非常豐富,舍棋之外,別無他物。金庸說他最佩服的人里,古人是范蠡,今人是吳清源。這本書就是吳清源精神世界的最好寫照。
《中的精神:吳清源自傳》
?
LiveVideoStack: 您將參加9月份在北京的LiveVideoStackCon音視頻大會,那么在會上您會帶來哪些令人期待的內容?
章琦:我會分享拍樂云視頻編碼器的設計實踐以及針對實時視頻系統應用場景落地的一些優化策略。
大家知道,實時視頻系統對于時延的要求極高,所以視頻編碼器必須滿足實時性的要求。現代編碼器在 Rate-distortation 性能的提升上是以復雜度的上升為代價的,當前應用設備的碎片化非常嚴重、設備的運算能力差異巨大,這些都是新技術落地實時音視頻系統將面臨的挑戰。所以我想分享下我們在設計實時視頻編碼器時,在平衡復雜度和實時性上的一些考量。
?
LiveVideoStack: : 好的,謝謝您接受采訪,期待您在2021LiveVideoStackCon北京站的精彩演講!
?
編輯:Alex
LiveVideoStackCon2021北京站火熱報名中!
詳情請掃描圖中二維碼或點擊閱讀原文了解大會更多信息。
總結
以上是生活随笔為你收集整理的降低网络拥塞,追求美好体验——对话拍乐云首席科学家章琦的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: B站直播中HLS和去中心化P2P的实际应
- 下一篇: 未来,让我们一起想象— “Imagine