即构科技金健忠:回顾20年音视频技术演进
多媒體技術是一個傳統行業,從模擬到數字,VCD到藍光,從窄帶到寬帶,標清到高清,技術演進讓人的視聽體驗發生了顛覆式的改變。LiveVideoStack采訪了即構科技CTO金健忠,他回顧了過去20年多媒體技術的發展,并展望了未來的技術趨勢。
文 / 金健忠
策劃 / LiveVideoStack
LiveVideoStack:能否向LiveVideoStack讀者簡單介紹下自己,當初是如何進入音視頻這個領域的,以及這些年的工作體會。
金健忠:大家好,我是金健忠,目前擔任即構科技CTO。從2001年開始到現在,先后在InterVideo、ST意法半導體從事音視頻軟硬件方面的開發,2010年加入騰訊,組建QQ語音團隊,做互聯網音視頻。5年時間里,我們逐漸發現互聯網有很多應用都需要用到音視頻。2015年和林友堯(即構科技創始人&CEO,QQ前總經理)等人出來創業,思考怎么把這些年在音視頻領域積累的經驗轉化為平臺,服務更多的應用,到現在,我們創立即構已經3年多。
即構主要為企業提供互聯網+音視頻整體解決方案,覆蓋音視頻的產生、接入、存儲、分發、回放等方面,幫助各個行業快速接入和應用音視頻,讓客戶更專注在自己的領域發展。
這些年的工作體會主要有三點:
第一, 音視頻是需要長期積累的技術,數字音視頻技術可以追溯到模擬信號彩色電視時代,復合視頻信號本身在時間、幀、場方面已經離散化處理了,里面還涉及顏色空間轉換、色差信號壓縮以及各種復雜的同步。
第二, 音視頻技術涉及的范圍很廣,比如雙工通訊的回聲消除是屬于算法方面的,性能優化ARM-NEON/SSE等屬于CPU結構方面,音頻播放線程緩沖屬于OS方面的,帶寬預測/FEC/ARQ屬于網絡傳輸方面,還有高包量低延遲服務、GPU等。
第三, 音視頻技術應用場景非常豐富,我自己經歷過的就有DVD(數字視頻光盤)、DVB(數字視頻廣播)、VOD(視頻點播系統)、LIVE(直播)、Communication(通話)等應用場景。
LiveVideoStack:在音視頻領域從業近20年,能否從你的角度給我們分享一下近20年來音視頻(技術)領域的發展歷程?
金健忠:我認為整個音視頻行業大致圍繞以下3條線索在發展演進:
線索1:數字化進程和協議分層
首先我理解音視頻發展是一個數字化和協議分層的一個過程。大家知道一開始電影是一秒鐘拍24張照片,放出來看效果就是連續的,這是時間軸上的采樣。接下來模擬電視信號又在掃描線上采樣,然后再放入色差信號、音頻信號形成復合視頻信號。將復合視頻信號進行調制發送就完成音視頻傳輸,將復合視頻信號記錄到磁帶上就完成音視頻的存儲。這一階段整個音視頻需要作為一個整體考慮。這些技術發生在很久之前。
接下來發生的事情就是音視頻信號純數字化的過程,這個過程產生了VCD/DVD/藍光BD/數字電視DVB/ATSC等一系列存儲傳輸方式,技術上也把整個音視頻技術分為若干層,包括如MPEG編解碼codec、存儲冗余編碼糾錯技術如Reed-Solomon、傳輸編碼、傳輸數字調制如QAM/COFDM、物理傳輸如Cable、存儲介質如DVD等等。這些技術都互相獨立和發展。
第三個重要的階段是通用硬件的介入以及互聯網化。通用硬件和互聯網的介入使得各個層次之間的分解更細致。比如容器和編碼的分離,MPEG2 PS/TS可能還算是codec的一部分,到了MP4/mkv等容器就已經和codec沒有太多關系了。H.264提出NAL概念,明確建立codec和容器/協議的邊界。存儲可以有各種容器和介質,傳輸也可以有各種協議和物理介質。應用更是豐富多彩。以前一個視頻廣播業務需要地面廣播或者Cable或者衛星+接受機+電視一整套系統。現在無論是專用接收機、電腦,還是手機都可以完成視頻廣播的接收,基于IP的網絡協議可以通過光纖或者衛星鏈路實時地傳送到各個邊緣節點,再通過Cable、Wifi、Cellular傳輸到終端。
線索2:硬件和質量提升
第二條線索可以從硬件和質量上看。記得我剛上大學的時候,在電腦上看VCD還需要一個MPEG解碼卡的專用硬件。隨后不久,CPU等硬件能力持續增強,出現MMX等專門為多媒體設計的指令,這些讓軟解成為可能。但是好景不長,更高質量DVD的出現又讓老舊硬件性能捉襟見肘。接著又是更強的CPU,帶硬件加速的顯卡。這種硬件的升級和質量的需求互相促進形成閉環。模擬信號一個頻道可以傳輸一路標清視頻,MPEG2一條TS流可以傳輸五路標清或一路高清,升級H.264后高清也能傳五路了。以前手機只能窄帶語音,現在則需要全帶全雙工。音視頻開發需要不斷更新技術,適配新硬件,滿足新的需求。
線索3:互動和場景豐富
場景豐富,尤其是互動的需求是不可忽略的一個趨勢。在IP化/互聯網化之前,早有DVD加入互動菜單,藍光BD引入BD-J可以跑Java程序進行互動,數字廣播DVB加入MHP ,使用一個撥號網絡作為回傳通道。DVB-H則在COFDM+TS上加入DSM-CC把音視頻IP化。互聯網化之后,基于互聯網實時傳輸分發網絡,可以方便的實現全雙工多方互動。
LiveVideoStack:經歷了眾多產品的音視頻架構底層開發,包括之前的QQ語音以及現在的即構科技。相比于過往的產品,你認為即構的音視頻架構有哪些變化與不同?
金健忠:QQ語音架構是我在2010年加入騰訊后,針對騰訊互聯網+實時音視頻場景應用開發的。后續又經歷騰訊音視頻中心、騰訊互娛、騰訊云等多個團隊的打磨,可以說性能已經非常出色。在即構,為豐富互聯網+音視頻應用場景,我們重新設計了一套音視頻架構,旨在希望以平臺的方式滿足各個行業對音視頻需求。在思路上,我們吸取了以往架構的經驗,比如我們同樣設計靈活的模塊結構,讓音視頻處理管道可以合理安排線程、buffer,保證整個管道實時、高效。同時,我們也針對更復雜的場景在技術上進行一些優化,比如:
音視頻引擎的整體設計
更好的音視頻同步設計
支持多協議以及多協議互通
支持時鐘注入,進一步優化數據驅動鏈路
優化元數據處理流程,媒體數據和元數據有強相關性,管道結構中需要維護這種相關性,包括有緩沖節點和無緩沖節點
更靈活的buffer機制,同時支持可引用和不可引用buffer,支持CVPixelBuffer/SurfaceTexture等傳遞方式
靈活的模塊間協商機制,靜態協商、事件觸發協商、動態協商。比如切換硬件codec的時候可以觸發事件協商改用SurfaceTexture
就近接入調度支持、最優線路調度支持、分發調度支持
LiveVideoStack:市面上很多實時音視頻方案是基于WebRTC,即構在最初技術選型時,為什么沒有選用WebRTC,而選擇了走自研這條路?
金健忠:即構提供完整的互聯網+音視頻平臺服務,包括內容產生、接入、分發、回放等環節,支持多端互通,包括WebRTC協議的Web端。Web端互通只是即構音視頻平臺服務中眾多特性中的一個。WebRTC開源框架沒有原生支持即構的眾多特性,相比從WebRTC框架開始修改打磨來說,自研可以從一開始就融入即構的設計原則,從架構、算法、平臺支持、協議等方面最優化設計。
例如:
技術架構上,我們希望原生支持多路音視頻,支持AUX輸入環回或混音到遠端,支持低延遲耳返,原生支持多協議,支持外部采集、渲染、外部編碼、解碼音視頻外部濾鏡等。
算法設計上,一開始就考慮到架構和場景,比如Jitter Buffer,幀率碼率控制,視頻分層編解碼等都會匹配多協議設計。帶寬預測,反饋能夠適應多跳選路(例如國際加速優化),分發到需求。3A設計采用全頻帶,適應多場景多平臺多需求。
平臺支持上,能夠更好適應通用/嵌入平臺,如CVPixelBuffer,SurfaceTexture原生支持等。
協議支持上,就近接入調度,支持多跳路由優化,支持分發,支持秒開特性。媒體層協議進行合理安排減少連接建立時間。
LiveVideoStack:隨著5G商用時間表的臨近,VR場景將會得到釋放,最可能帶來變革的就是音視頻領域。你覺得5G將會給音視頻行業帶來怎樣的機遇與挑戰?
金健忠:VR/AR是交互方式革新,本身還有許多技術問題需要解決。為了營造沉浸式環境,需要給用戶提供極快速的響應。100Hz的刷新頻率、LCD(液晶顯示器)的一點點拖尾都會讓用戶覺得頭暈。高分辨率、高刷新頻率需要的高帶寬讓頭戴設備很難擺脫物理聯線。精準的定位和不到10ms的響應時間也是需要突破的難點。我覺得整個VR/AR的革新主要還是在其本身,只有這些問題解決后才會引起音視頻的進一步變革。
相比VR來說,5G商用已經有時間表。5G可能會帶來帶寬、延遲、密度方面的變化。
這些提升主要來自毫米波段的使用,QAM256,100MHz頻道。一般認為5G可以帶來Gb/s級別的用戶帶寬,ms級別空口延遲。這個水平相當于使用網線連接千兆以太局域網。整個系統的瓶頸會轉移到如國內網絡環境50ms RTT,國外直連 >200ms RTT,云虛擬機負載,云虛擬機單鏈接性能,存儲性能等其他方面。可以從服務器接入調度,優化負載調度,單鏈接性能等方面優化整體性能。
LiveVideoStack:展望未來,你對音視頻領域有哪些期待?
金健忠:我認為有以下幾個方面,
變聲和聲音特效
更好的語音去背景噪聲。
當前實用的降噪算法主要集中在噪音學習和陣列降噪上。但是人耳人腦的能力遠超現在算法能達到的水平,比如人在嘈雜環境下,也有很大可能“過濾掉”噪聲和其他人的語音集中理解某個人說話。
聲紋識別,說話人識別
語音分離,音樂分離。
比如兩個人說話,能把一個人的語音完整分離出來。能夠從交響樂分離出大提琴的聲音。
語音識別
音樂識別,哼唱識別。這個也很有意思,哼一哼就能找到對應歌曲。這個領域好像有一些接近實用的應用了。
其它還包括以下領域,都非常令人期待:
更高效視頻codec,4k,8k,低碼率,足夠低的計算復雜度
更好的視頻分層編碼codec
人臉識別
文字識別
AI視頻分類
總結
以上是生活随笔為你收集整理的即构科技金健忠:回顾20年音视频技术演进的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 常青:小程序音视频能力再升级
- 下一篇: FFmpeg优化 苏宁PP体育视频剪切效