基于内容的自适应视频传输算法及其应用
生活随笔
收集整理的這篇文章主要介紹了
基于内容的自适应视频传输算法及其应用
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
本文內容來自LiveVideoStack線上分享第四季第二期,由湖北經濟學院副教授,胡勝紅博士為大家介紹如何基于內容分析技術,從用戶需求角度標注視頻流重要性級別,構建自適應流傳輸策略,實現語義級QoE優化目標。
文 / 胡勝紅整理 / LiveVideoStack大家好,我是胡勝紅,本次議題主要源自我攻讀博士期間的研究課題,在4-5年的研究時間里,我對基于內容的視頻自適應傳輸策略和優化算法進行了深入探索,今天借此機會在LiveVideoStack平臺與大家分享一下自己的研究成果和一些工程化經驗。本次分享主要由基于內容的自適應視頻傳輸簡介、系統架構及其優化策略、視頻內容分析與分級、自適應流傳輸技術和行業現狀、相關應用等五部分組成。1. 基于內容的自適應視頻傳輸簡介1.1 什么是基于內容的自適應視頻傳輸(Content-based Adaptive Video Transmission)?CBAVT是基于視頻內容的特征分析,將視頻流中用戶感興趣的重要內容片段以優化質量方式傳輸,實現語義層QoE最大化。主體架構如圖1。圖1? CBAVT系統框架圖1中的架構有幾大要素,其中內容描述服務器是指在視頻內容傳輸之前做內容的分析,實時流(Live Streaming)和點播流(Video on Demand)的內容分析方式是不一樣的,在點播流中可以進行預分析,將元數據存儲在內容描述服務器中便于傳輸時被決策模塊訪問;而在實時流中邊傳輸邊分析,內容分析手段往往被簡化,防止復雜性的計算帶來過大時延。內容分級:是在內容傳輸之前必須做的,即分出內容重要性的級別,可以根據系統的應用特點進行級別的設置。一般分為三個級別:用戶最感興趣內容、中等感興趣內容和最不感興趣內容。內容分級完成之后進行基于內容的自適應傳輸決策執行。這個決策過程被建模為一個約束優化模型,優化目標是視頻質量,而約束條件是網絡環境中可變或不變的性能參數。邏輯的自適應策略模型無法直接對數據流進行操作,實際中會結合現有的一些流傳輸方法(如RTSP、RTMP、DASH、HLS等),對實際數據包進行時域或空域的操作(丟幀、碼流切換),使得碼流在傳輸過程中能夠適合不同的傳輸環境,例如物聯網、無線網等一些不可靠網絡環境。1.2 主要關鍵詞的介紹視頻分析:利用機器學習方法或深度學習方法提取視頻特征,此過程如果是在點播(VoD)的環境下手工標注也可以。視頻分析不屬于流傳輸的范疇,是屬于機器學習或者視頻檢索領域,近年來深度學習技術在圖像和視頻語義分析領域取得了巨大成功,有許多成果可被利用。國際上一般使用MPEG-7標準管理多媒體元數據的存儲和訪問。內容分級:基于領域知識或者用戶偏好對視頻內容進行重要性分級,不同的系統要根據不同的應用目標做內容分級。效用優化:在網絡約束或者無線網絡不穩定情況下,流傳輸相關的視頻參數如幀率、碼率等的改變對用戶QoE的影響效果,可以通過一些擬合方法進行建模。實時流傳輸:是一些標準的傳輸流技術,所有的視頻流操作都離不開這些標準,自適應視頻傳輸技術必須依賴實時流傳輸技術實現信號層操作,包括RTP/RTSP、RTMP、HLS、DASH等標準。語義級的QoE:傳統的QoE是Quality of Experience,即用戶對所播放視頻的主觀體驗及用戶對視頻內容的認可度,換而言之就是與用戶語義相關的需求(即用戶觀看的信息理解、興趣和情感等方面)是否被有效滿足。2. 視頻內容分析與分級圖2? 視頻內容分析任務CBAVT系統的首要任務是視頻內容分析。通常,視頻內容分析分為高層、中層、低層三個層次,中層和低層可用的內容合并為中低層內容分析。高層語義分析可以利用我們熟知的領域知識,例如足球視頻、音樂視頻、電影、自拍視頻(以個人為中心的視頻)等等。語義內容分析中有幾個容易被利用的特征。其中,情感特征容易反映觀看者的情緒變換,例如電影視頻中不同情節的情感,可以使用自動或手動方式對視頻情感特征進行標注。而對象特征可以指電影視頻或自拍視頻都會存在的主角,與主角有關的動作和場景都是比較重要的,或者監控視頻中的被關注對象。高層語義分析的通用性并不是很強,不同用戶和不同領域對語義的要求有很大的差異,因此要結合具體應用而論。中低層語義分析特征比較通用化,其中注意力特征指眼動或者人對視頻中出現的運動變化產生的關注,此領域有許多成果可以被利用。運動特征作為視頻內容精彩與否的重要表征量,比較通用化,因此早期基于內容的自適應視頻傳輸策略都是基于運動特征的。聲音特征對情感的表達非常敏感,所以聲音特征可以用來對情感內容進行識別和標注,除此之外還有紋理特征等等。3. 視頻內容分析和標注實例3.1 利用運動對內容進行分級
圖3? 運動特征分析
以早期我的一篇論文來作為介紹,我們對畫面內任何宏塊都可以提取運動幅值和運動方向作為運動特征,目前運動特征的提取可以達到實時化。圖3將12個標準測試視頻劃分為3個不同的運動級別:低速運動(low speed級別的視頻流),中速運動(Medium speed 運動)、高速運動(high speed運動,例如踢足球的運動)。圖中可以看出,在同樣碼率的情況下,高速運動的質量會非常低,因此在碼流切換的時候應盡可能在高速運動時切換為高碼率的傳輸。圖3中第四個視頻為低速運動,第五個視頻為高速運動,第六個視頻為中速運動,第七個視頻為高速運動。在得到運動有關的分類之后,即可把視頻分為低速運動、中速運動、高速運動三類。三種不同的運動在不同碼率下對應的視頻質量可以擬合出一條曲線,即根據碼率值、目標質量和運動特征值進行回歸分析,得到一個目標值的擬合函數。該目標值函數得到之后即可以代入優化模型。3.2 如何在語義層進行內容分級圖4? 精彩事件分析以娛樂性較強的足球視頻為例,通常觀眾看球最喜歡看進球和回放畫面的,這種視頻片段可以進行自動識別和標注,相應算法識別率可以達到百分之百。除此之外,還有一些重要的犯規、射門等用戶感興趣片段,識別率也可以達到百分之九十以上。假設把視頻的運動強度、鏡頭切換率(固定時間窗口內鏡頭切換的快慢)以及聲音能量三個特征參數融合為一條曲線,即可得到精彩度曲線,峰值區域就是精彩事件。對精彩度曲線可設置閾值,大于該閾值即可設置為精彩事件,進而對被傳輸視頻內容進行分級。3.3 電影視頻或者個人自拍視頻圖5? 個性化情感分析
情感作為語義層分級的最高級或者作為高于語義層單獨稱為情感層,是視頻分析的最高層任務。該類視頻是表演者情感和觀眾情感的融合,即觀眾喜歡看何種情感的視頻,就對相應情感的片段進行優化。由于近幾年深度學習技術在計算機視覺領域的廣泛應用,情感識別的準確率提升很明顯。例如應用Resnet-50提取深度卷積特征,應用支持向量機(SVM)分6類基本情感的概率值作為視頻的一個特征量。以鏡頭為單元,一般同一鏡頭的情感是相似的,在連續時間域內計算兩兩鏡頭之間的距離,平均后可以得到用戶的偏好強度。例如用戶為女生則會喜歡情感性比較強的電影,比如泰坦尼克號或者再見前任等;用戶為男生一般會喜歡功夫熊貓、速度與激情等一系列的電影。4. 優化策略模型圖6? 基于內容的自適應傳輸優化模型圖6是一個多維背包問題,邏輯上將視頻看作一個個時間域上連續排列的獨立單元,每個單元可能是一個幀或者片段,已被標注相應的級別值。在滿足當前的約束條件下(如帶寬、幀率或者碼率等),保證被傳輸單元的所有級別值的總和最大化即可。顯然做一個多維背包問題很困難而且耗時,但在實際使用中卻沒那么復雜,比如在丟幀的情況下,每次只能丟一幀,該背包問題則成為一維背包問題;如果是多片段的編碼流,在服務器上只有有限版本的碼流情況下,則成為有限背包問題。4.1 標注流傳輸單元語義分級或者語義標簽標注在流傳輸單元上,視頻流結構決定標注粒度,以下為幾種標注流傳輸單元:(1)包級:IP包是獨立的傳輸單元,主要是一種網絡解決方案。(2)幀級:在視頻傳輸中幀是獨立的編解碼單元,一個幀至少要包含在一個包里面,保證幀在傳輸過程中是安全的,否則解碼后會出現馬賽克。(3)片段級:當傳輸單元是一個片段時,即傳輸單元是一個Segment或者Chunk,包含多個幀,但起始幀一定是關鍵幀,否則切換時無法解碼。圖7? 與流傳輸單元相關的語義標注值如圖中,虛框表示邏輯上的標注,語義標簽可標注在幀上,也可以標注在片段上,具體依據不同的流傳輸系統而定。5. 自適應流傳輸技術5.1 實時流傳輸實現:基于RTP/RTSP圖8? RTSP丟幀操作標注完成之后進行丟幀操作,一般情況下在實時流中丟棄一定非參考幀,可以將碼率降低50%~30%,同時也能夠保證解碼時不出錯。丟多少幀可由內容的級別決定,級別越高的內容丟幀越少,級別低的幀不能丟P幀,因為會出現明顯的卡頓。5.2 實時流傳輸實現:基于DASH碼流切換圖9? 碼流切換操作碼率切換的一個優點是不會出現卡頓。缺點是如果碼率切換太頻繁,就會出現用戶對質量的焦慮感,因為碼率從低到高的切換用戶比較容易接受,反之就會比較難接受。因此根據內容重要性級別在不同質量碼流間切換時,還要考慮緩存分配,可以給高碼率的視頻預留一些緩存,這樣高速運動的視頻傳輸時可以盡量調高碼率。綜合應用網絡資源分配優化傳輸質量是一個比較好的策略。5.3 視頻流質量評價在實時的傳輸過程中,需要對傳輸質量進行評估,以評判自適應傳輸算法是否有效,包括客觀質量、語義級QoE兩種評判方法。目前對視頻客觀質量的評價標準有以下幾種方法:
文 / 胡勝紅整理 / LiveVideoStack大家好,我是胡勝紅,本次議題主要源自我攻讀博士期間的研究課題,在4-5年的研究時間里,我對基于內容的視頻自適應傳輸策略和優化算法進行了深入探索,今天借此機會在LiveVideoStack平臺與大家分享一下自己的研究成果和一些工程化經驗。本次分享主要由基于內容的自適應視頻傳輸簡介、系統架構及其優化策略、視頻內容分析與分級、自適應流傳輸技術和行業現狀、相關應用等五部分組成。1. 基于內容的自適應視頻傳輸簡介1.1 什么是基于內容的自適應視頻傳輸(Content-based Adaptive Video Transmission)?CBAVT是基于視頻內容的特征分析,將視頻流中用戶感興趣的重要內容片段以優化質量方式傳輸,實現語義層QoE最大化。主體架構如圖1。圖1? CBAVT系統框架圖1中的架構有幾大要素,其中內容描述服務器是指在視頻內容傳輸之前做內容的分析,實時流(Live Streaming)和點播流(Video on Demand)的內容分析方式是不一樣的,在點播流中可以進行預分析,將元數據存儲在內容描述服務器中便于傳輸時被決策模塊訪問;而在實時流中邊傳輸邊分析,內容分析手段往往被簡化,防止復雜性的計算帶來過大時延。內容分級:是在內容傳輸之前必須做的,即分出內容重要性的級別,可以根據系統的應用特點進行級別的設置。一般分為三個級別:用戶最感興趣內容、中等感興趣內容和最不感興趣內容。內容分級完成之后進行基于內容的自適應傳輸決策執行。這個決策過程被建模為一個約束優化模型,優化目標是視頻質量,而約束條件是網絡環境中可變或不變的性能參數。邏輯的自適應策略模型無法直接對數據流進行操作,實際中會結合現有的一些流傳輸方法(如RTSP、RTMP、DASH、HLS等),對實際數據包進行時域或空域的操作(丟幀、碼流切換),使得碼流在傳輸過程中能夠適合不同的傳輸環境,例如物聯網、無線網等一些不可靠網絡環境。1.2 主要關鍵詞的介紹視頻分析:利用機器學習方法或深度學習方法提取視頻特征,此過程如果是在點播(VoD)的環境下手工標注也可以。視頻分析不屬于流傳輸的范疇,是屬于機器學習或者視頻檢索領域,近年來深度學習技術在圖像和視頻語義分析領域取得了巨大成功,有許多成果可被利用。國際上一般使用MPEG-7標準管理多媒體元數據的存儲和訪問。內容分級:基于領域知識或者用戶偏好對視頻內容進行重要性分級,不同的系統要根據不同的應用目標做內容分級。效用優化:在網絡約束或者無線網絡不穩定情況下,流傳輸相關的視頻參數如幀率、碼率等的改變對用戶QoE的影響效果,可以通過一些擬合方法進行建模。實時流傳輸:是一些標準的傳輸流技術,所有的視頻流操作都離不開這些標準,自適應視頻傳輸技術必須依賴實時流傳輸技術實現信號層操作,包括RTP/RTSP、RTMP、HLS、DASH等標準。語義級的QoE:傳統的QoE是Quality of Experience,即用戶對所播放視頻的主觀體驗及用戶對視頻內容的認可度,換而言之就是與用戶語義相關的需求(即用戶觀看的信息理解、興趣和情感等方面)是否被有效滿足。2. 視頻內容分析與分級圖2? 視頻內容分析任務CBAVT系統的首要任務是視頻內容分析。通常,視頻內容分析分為高層、中層、低層三個層次,中層和低層可用的內容合并為中低層內容分析。高層語義分析可以利用我們熟知的領域知識,例如足球視頻、音樂視頻、電影、自拍視頻(以個人為中心的視頻)等等。語義內容分析中有幾個容易被利用的特征。其中,情感特征容易反映觀看者的情緒變換,例如電影視頻中不同情節的情感,可以使用自動或手動方式對視頻情感特征進行標注。而對象特征可以指電影視頻或自拍視頻都會存在的主角,與主角有關的動作和場景都是比較重要的,或者監控視頻中的被關注對象。高層語義分析的通用性并不是很強,不同用戶和不同領域對語義的要求有很大的差異,因此要結合具體應用而論。中低層語義分析特征比較通用化,其中注意力特征指眼動或者人對視頻中出現的運動變化產生的關注,此領域有許多成果可以被利用。運動特征作為視頻內容精彩與否的重要表征量,比較通用化,因此早期基于內容的自適應視頻傳輸策略都是基于運動特征的。聲音特征對情感的表達非常敏感,所以聲音特征可以用來對情感內容進行識別和標注,除此之外還有紋理特征等等。3. 視頻內容分析和標注實例3.1 利用運動對內容進行分級
圖3? 運動特征分析
以早期我的一篇論文來作為介紹,我們對畫面內任何宏塊都可以提取運動幅值和運動方向作為運動特征,目前運動特征的提取可以達到實時化。圖3將12個標準測試視頻劃分為3個不同的運動級別:低速運動(low speed級別的視頻流),中速運動(Medium speed 運動)、高速運動(high speed運動,例如踢足球的運動)。圖中可以看出,在同樣碼率的情況下,高速運動的質量會非常低,因此在碼流切換的時候應盡可能在高速運動時切換為高碼率的傳輸。圖3中第四個視頻為低速運動,第五個視頻為高速運動,第六個視頻為中速運動,第七個視頻為高速運動。在得到運動有關的分類之后,即可把視頻分為低速運動、中速運動、高速運動三類。三種不同的運動在不同碼率下對應的視頻質量可以擬合出一條曲線,即根據碼率值、目標質量和運動特征值進行回歸分析,得到一個目標值的擬合函數。該目標值函數得到之后即可以代入優化模型。3.2 如何在語義層進行內容分級圖4? 精彩事件分析以娛樂性較強的足球視頻為例,通常觀眾看球最喜歡看進球和回放畫面的,這種視頻片段可以進行自動識別和標注,相應算法識別率可以達到百分之百。除此之外,還有一些重要的犯規、射門等用戶感興趣片段,識別率也可以達到百分之九十以上。假設把視頻的運動強度、鏡頭切換率(固定時間窗口內鏡頭切換的快慢)以及聲音能量三個特征參數融合為一條曲線,即可得到精彩度曲線,峰值區域就是精彩事件。對精彩度曲線可設置閾值,大于該閾值即可設置為精彩事件,進而對被傳輸視頻內容進行分級。3.3 電影視頻或者個人自拍視頻圖5? 個性化情感分析
情感作為語義層分級的最高級或者作為高于語義層單獨稱為情感層,是視頻分析的最高層任務。該類視頻是表演者情感和觀眾情感的融合,即觀眾喜歡看何種情感的視頻,就對相應情感的片段進行優化。由于近幾年深度學習技術在計算機視覺領域的廣泛應用,情感識別的準確率提升很明顯。例如應用Resnet-50提取深度卷積特征,應用支持向量機(SVM)分6類基本情感的概率值作為視頻的一個特征量。以鏡頭為單元,一般同一鏡頭的情感是相似的,在連續時間域內計算兩兩鏡頭之間的距離,平均后可以得到用戶的偏好強度。例如用戶為女生則會喜歡情感性比較強的電影,比如泰坦尼克號或者再見前任等;用戶為男生一般會喜歡功夫熊貓、速度與激情等一系列的電影。4. 優化策略模型圖6? 基于內容的自適應傳輸優化模型圖6是一個多維背包問題,邏輯上將視頻看作一個個時間域上連續排列的獨立單元,每個單元可能是一個幀或者片段,已被標注相應的級別值。在滿足當前的約束條件下(如帶寬、幀率或者碼率等),保證被傳輸單元的所有級別值的總和最大化即可。顯然做一個多維背包問題很困難而且耗時,但在實際使用中卻沒那么復雜,比如在丟幀的情況下,每次只能丟一幀,該背包問題則成為一維背包問題;如果是多片段的編碼流,在服務器上只有有限版本的碼流情況下,則成為有限背包問題。4.1 標注流傳輸單元語義分級或者語義標簽標注在流傳輸單元上,視頻流結構決定標注粒度,以下為幾種標注流傳輸單元:(1)包級:IP包是獨立的傳輸單元,主要是一種網絡解決方案。(2)幀級:在視頻傳輸中幀是獨立的編解碼單元,一個幀至少要包含在一個包里面,保證幀在傳輸過程中是安全的,否則解碼后會出現馬賽克。(3)片段級:當傳輸單元是一個片段時,即傳輸單元是一個Segment或者Chunk,包含多個幀,但起始幀一定是關鍵幀,否則切換時無法解碼。圖7? 與流傳輸單元相關的語義標注值如圖中,虛框表示邏輯上的標注,語義標簽可標注在幀上,也可以標注在片段上,具體依據不同的流傳輸系統而定。5. 自適應流傳輸技術5.1 實時流傳輸實現:基于RTP/RTSP圖8? RTSP丟幀操作標注完成之后進行丟幀操作,一般情況下在實時流中丟棄一定非參考幀,可以將碼率降低50%~30%,同時也能夠保證解碼時不出錯。丟多少幀可由內容的級別決定,級別越高的內容丟幀越少,級別低的幀不能丟P幀,因為會出現明顯的卡頓。5.2 實時流傳輸實現:基于DASH碼流切換圖9? 碼流切換操作碼率切換的一個優點是不會出現卡頓。缺點是如果碼率切換太頻繁,就會出現用戶對質量的焦慮感,因為碼率從低到高的切換用戶比較容易接受,反之就會比較難接受。因此根據內容重要性級別在不同質量碼流間切換時,還要考慮緩存分配,可以給高碼率的視頻預留一些緩存,這樣高速運動的視頻傳輸時可以盡量調高碼率。綜合應用網絡資源分配優化傳輸質量是一個比較好的策略。5.3 視頻流質量評價在實時的傳輸過程中,需要對傳輸質量進行評估,以評判自適應傳輸算法是否有效,包括客觀質量、語義級QoE兩種評判方法。目前對視頻客觀質量的評價標準有以下幾種方法:
PSNR:最早傳統的方法,是基于像素值失真的度量。
SSIM:基于結構失真的度量,與PSNR相比更敏感,往往PSNR不明顯時SSIM更明顯。
VQM:基于感知域失真的度量,是通過人可以感知運動、紋理等事物的參數的度量來評價視頻的質量,很多現有的方法普遍認為VQM更符合人眼的質量感知(但就我認為,VQM是做加權平均值,往往比較模糊,存在誤差,某些情況下誤差會更大。)
VMAF:基于機器學習模型的失真度量,缺點是運行時間比較長,但準確度與PSNR、SSIM相近。
用戶關注的運動內容是否平滑清晰
用戶關注的進球事件是否完整無缺失
用戶關注的情感內容是否完整無缺失
用戶關注的教學內容是否清晰可讀
用戶關注的對象是否清晰可識別
LiveVideoStack?秋季招聘
LiveVideoStack正在招募編輯/記者/運營,與全球頂尖多媒體技術專家和LiveVideoStack年輕的伙伴一起,推動多媒體技術生態發展。同時,也歡迎你利用業余時間、遠程參與內容生產。了解崗位信息請在BOSS直聘上搜索“LiveVideoStack”,或通過微信“Tony_Bao_”與主編包研交流。
總結
以上是生活随笔為你收集整理的基于内容的自适应视频传输算法及其应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 快手直播平台演进之路
- 下一篇: 网易易盾李雨珂:服务性能+算法确定性优化