林绪虹:看好QoE、音视频内容理解与AV1
還記得你在大學時候的夢想嗎?職場上打拼多年,你的工作領域與你之前的專業還有多少相關?技術、行業與時代的洪流將一些人推上人生巔峰,又把一些人無情的拍向谷底。LiveVideoStack郵件采訪了YY音視頻算法中心負責人林緒虹,從直播領域的起伏聊到時代,從學習方法聊到技術趨勢。
策劃 / LiveVideoStack
LiveVideoStack:林緒虹你好,能否簡要介紹下自己,包括目前的主要工作及關注領域?
林緒虹:我2004年本科和2007年碩士畢業于華南理工大學,一直從事圖像處理、圖像搜索、視頻摘要等相關研發工作,擅長圖像、視頻、信號處理領域的技術研發。2012年加入歡聚時代(YY),現任職于音視頻算法中心,負責音視頻直播方案相關研發工作,包括重構直播體系、直播體驗提升、音視頻直播質量改進等。
我對音視頻編解碼、視頻內容分析與理解、圖像處理等領域有著深厚的興趣,近期目標是把YY的音視頻直播質量重新打造成世界領先水平,重塑YY直播高品質、低延時的技術能力,保持YY技術上的核心競爭力。
LiveVideoStack:為什么進入“多媒體開發”領域?有哪些偶然和必然?
林緒虹:回頭看自己的發展歷程,從個人角度來看更多的是偶然,但是放在行業的角度來看,則是一種產業升級后的必然。
從早年一直從事傳統工科的圖像信號處理,就業面窄、解決問題單一,到后來陰差陽錯走入互聯網做圖像搜索、視頻檢索,隨著直播浪潮的涌起,自然而然就逐步踏入音視頻編解碼崗位。每次面對這樣的轉變,都面臨著大量新的知識、工具需要學習,短時間內是非常有壓力的,但是自己一直能從容應對這種壓力。能從容面對這樣的轉變,一方面是自己具備這方面的學科基礎知識和濃厚興趣,能夠順利地轉型成功,另一方面,也是產業升級后,迫使自己往人才缺口更大的崗位轉移。
同樣的故事,我看到也發生在很多自己身邊的朋友里。早年從事傳統圖形學產品的同學、朋友,現在也轉入互聯網做一些更貼近用戶的圖形學產品;早年從事媒體報道的朋友,也轉戰進入互聯網運營自己的公眾號、網站等。在這樣的技術革命浪潮下,擁抱這種變化,將會迎來更大的機遇。所以,這樣的選擇也就成了一種必然。
LiveVideoStack:搞多媒體開發需要學習大量的基礎知識,而且需要在實際工作中摸爬滾打。對于學習多媒體開發,您有哪些建議?能否推薦一些多媒體開發相關的學習資料或書籍。
林緒虹:現在搞多媒體開發的工程師,真正屬于該專業科班出身、根正苗紅的工程師,比例并不高。我看到周圍,反而大量的是當年學習機械、電信、自動化專業的同學,在從事這一行業。
為什么會有這一奇怪的現象呢?因為多媒體開發,尤其是視頻編碼、音頻編碼,其實需要大量的信號處理知識作為理論基礎,才能做到知其所以然。補充這一部分的知識,可以看一些非常經典的書籍,尤其是需要對頻域變換知識做到深入的理解。
在理解了信號處理的基礎知識后,就可以讀一些專門的編解碼相關的書籍,如果是想在視頻這一塊有所深入,可以讀一讀楊付正的《新一代高效視頻編碼H.265/HEVC:原理、標準與實現》,以及早些年畢厚杰的《新一代視頻壓縮編碼標準—H.264/AVC》。這些都是挺不錯的經典參考書籍,我們團隊幾乎人手一本。先把這些書讀上幾遍,把其中的技術原理搞懂。
在補充完這些基礎知識后,就可以開始進行大量的實戰練習。從事這一行業,知識龐雜、細節繁多,一定要努力抓住主干脈絡,在成長中學習,重視動手能力的鍛煉。有了音視頻的理論基礎知識還不夠,還需要有編碼的實戰能力,而鍛煉這個能力,我覺得找一些大項目參與開發、動手做練習是最關鍵的。在做項目的過程中,把所有奇怪的坑都填一遍,水平自然就上來了。
接下來進一步的提高,就需要關注網上相關專業廠商的動態,多多學習他們在實際中是如何把音視頻編解碼技術用到極致的,多觀察他們在實際中使用了哪一些有趣的方案或是技術、解決了哪一些特定的問題。
LiveVideoStack:為什么要重構YY的直播系統?這里有哪些歷史原因,又遇到了哪些來自業務的挑戰?
林緒虹:重構YY直播系統的動力,就是來自于業務的壓力。在2016年開始,直播全面開花,各種競爭對手出現。而競爭對手作為一個新入場的選手,有一個很大的優勢,它們的直播設備從一開始就性能更好,全新開發的系統及新上線的業務簡單,歷史包袱小,類似斗魚等競爭對手,一開始就以超清直播來沖擊YY的市場。而YY的整個直播體系,支撐了數條業務線,牽一發而動全身,升級困難,業務響應速度慢。
其中最大的業務挑戰來自于YY娛樂業務,這個業務主播數量多、業務種類多,有秀場、有手機直播、有現場直播等多種形式,在整個升級過程中,我們對所有的業務都不能造成不良的影響。
LiveVideoStack:重構進行的是否順利?遇到了哪些挑戰?
林緒虹:最大的挑戰,來自于YY直播的技術和業務歷史包袱。
我們需要兼容主播和觀眾大量老舊終端,同時也需要兼容YY諸多業務形態,做到無縫升級。為了做到這一點,我們重新設計了整套主播端和觀眾端邏輯,引入了差異化的能力,同時引入用多種編碼類型支持的能力。通過這樣的升級,我們在短短的一年時間內,完成了YY直播從標清直播到超清直播、4K直播的升級,同時也最大限度地把H.265在平臺中應用起來了。
LiveVideoStack:如何在成本、用戶體驗之間做好平衡?Code,CDN等如何選擇?
林緒虹:直播業務的競爭已經進入下半場,總體增長放緩,同時對運營成本優化的需求越來越強烈。但是在我看來,成本和用戶體驗并不矛盾,甚至有可能恰恰相反,即在積極嘗試新技術后,有可能用更低的成本帶來更好的用戶體驗。在這里,我舉我們的H.265和主觀視覺技術(有的廠商也叫極速高清、感知編碼、窄帶高清等)作為例子。
如果你采用H.265直播,相對H.264直播來說雖然系統更加復雜,但是用戶可以用更小的代價獲取同等清晰度視頻流,在更小的碼率下,觀眾端可能會有更好的流暢性表現,同時傳輸成本也有可能更小,在支持H.265的終端里,用戶體驗會更好。這種用戶體驗的提升,在低碼率低清直播下,感覺還不強烈,一旦直播上升到高清高碼率(1080p 4M 6M或4K),H.265技術帶來的用戶體驗提升,將非常的明顯。
我們最近一直在細化我們的直播策略,充分考慮到用戶在特定場景下觀看特定直播內容時,應該給予什么樣的碼率、分辨率,從而達到成本與質量的最佳平衡。為了在直播中實現這一整套完整的技術,我們重新構建了一套和人眼主觀更加接近的質量測評體系,同時也需要對開播體系、轉碼體系再做一次升級。目前來看,這也是現在各個視頻服務商努力在提升的環節。從我們的跟蹤來看,各大視頻服務商都引入了大量的AI技術來細化場景識別,包括優酷、騰訊視頻、華為等都應用了這一技術,雖然大家取的名字不一樣,但是做事情思路卻是一樣的。根據各大廠商的測評與交流,采用這一技術,在相同視頻質量的條件下,普通場景下可以節省 10%-20%的碼率,甚至有些場景能節省30%的碼率。使用這一技術,可以在節約帶寬成本的同時,保證觀眾端主觀畫質的穩定,從而帶來更好的觀看體驗。
所以,在我看來,為了在成本、用戶體驗之間做好平衡,最好的解決辦法,就是大膽地采用新技術。
LiveVideoStack:如果讓你來預測2018年多媒體生態圈的技術關鍵詞,你會選哪些?你看好哪些多媒體相關的技術?
林緒虹:我看好QoE、音視頻內容理解以及AV1這三個領域,并且會持續關注。
直播或是小視頻已經進入了對技術需要精耕細作的階段,不是懂一點音視頻基礎、攢一套代碼就可以走遍天下的時候了,整個行業對如何更好地提供音視頻服務、如何科學地提供音視頻質量評估、如何科學地提升用戶體驗,產生了深厚的興趣?;仡^看任何技術領域都是這樣,一旦某項技術的基礎應用迅速擴大,或是技術門檻簡單到可以讓人輕松嘗試后,如何在更精細的層面來區分工程師的水平,將是一個關鍵。而對于有追求的工程師,決不單單會滿足于只會一種技術,他應該還希望從深層次把握技術、原理、人性的內在規律,從“術”的境界上升到“道”的境界。
而大家也知道,目前的技術和載體的發展,“文字→圖片→視頻”這個人類獲取信息演進方式不僅沒有改變,還會繼續滾滾向前,并且向前的速度會大大加速。在音視頻這個載體中,承載了大量人類想表達的信息,如何讓計算機或是工具來理解其中的信息,并且更好的服務于人類,這必將是一個大家都想占領的技術制高點。一旦能對音視頻內容進行準確的理解,在這個基礎上,能做的事情將具備無限的可能。
對于AV1,應該是業界大家都非常期待的一個標準。在H.265的應用過程中,我們體會到了很多的不方便之處,如終端解碼能力、Web端不友好、CDN不友好、專利混亂等問題,部分是因為技術原因導致的,但更多是整個產業生態環境導致的。AV1非常有機會把各種問題一并解決了,提供給產業一個非常好的標準及生態環境,可以讓大家專心于解決視頻本質的質量問題。
LiveVideoStack:未來5G的網絡條件下,帶來哪些機遇和改善?比如,網絡的穩定性會提升,但隨著帶寬的暴增,會帶來帶寬/CDN成本的大幅增長。
林緒虹:未來5G的網絡條件下,可以預見,更高清的視頻和音頻應該會是應用的主流,到時候制約用戶體驗可能更多是用戶終端的處理能力。雖然網絡能力大幅提升,但是一旦遇到網絡瓶頸問題,高清視頻流高流量的特點,必然導致更糟糕的用戶體驗。因此,如何應付網絡突發事件,提供更好的觀看體驗,應該是大家要努力的一個目標,也是大家會深耕下去的一個領域。
總結
以上是生活随笔為你收集整理的林绪虹:看好QoE、音视频内容理解与AV1的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 傅德良:选择视频编码器的误区
- 下一篇: LiveVideoStackCon讲师热