當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基于内容的自适应视频传输算法及其应用

發布時間：2024/4/11 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了基于内容的自适应视频传输算法及其应用小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文內容來自LiveVideoStack線上分享第四季第二期，由湖北經濟學院副教授，胡勝紅博士為大家介紹如何基于內容分析技術，從用戶需求角度標注視頻流重要性級別，構建自適應流傳輸策略，實現語義級QoE優化目標。
文 / 胡勝紅整理 / LiveVideoStack

大家好，我是胡勝紅，本次議題主要源自我攻讀博士期間的研究課題，在4-5年的研究時間里，我對基于內容的視頻自適應傳輸策略和優化算法進行了深入探索，今天借此機會在LiveVideoStack平臺與大家分享一下自己的研究成果和一些工程化經驗。本次分享主要由基于內容的自適應視頻傳輸簡介、系統架構及其優化策略、視頻內容分析與分級、自適應流傳輸技術和行業現狀、相關應用等五部分組成。

1. 基于內容的自適應視頻傳輸簡介

1.1 什么是基于內容的自適應視頻傳輸（Content-based Adaptive Video Transmission）？

CBAVT是基于視頻內容的特征分析，將視頻流中用戶感興趣的重要內容片段以優化質量方式傳輸，實現語義層QoE最大化。主體架構如圖1。

圖1? CBAVT系統框架

圖1中的架構有幾大要素，其中內容描述服務器是指在視頻內容傳輸之前做內容的分析，實時流（Live Streaming）和點播流（Video on Demand）的內容分析方式是不一樣的，在點播流中可以進行預分析，將元數據存儲在內容描述服務器中便于傳輸時被決策模塊訪問；而在實時流中邊傳輸邊分析，內容分析手段往往被簡化，防止復雜性的計算帶來過大時延。

內容分級：是在內容傳輸之前必須做的，即分出內容重要性的級別，可以根據系統的應用特點進行級別的設置。一般分為三個級別：用戶最感興趣內容、中等感興趣內容和最不感興趣內容。內容分級完成之后進行基于內容的自適應傳輸決策執行。這個決策過程被建模為一個約束優化模型，優化目標是視頻質量，而約束條件是網絡環境中可變或不變的性能參數。邏輯的自適應策略模型無法直接對數據流進行操作，實際中會結合現有的一些流傳輸方法（如RTSP、RTMP、DASH、HLS等），對實際數據包進行時域或空域的操作（丟幀、碼流切換），使得碼流在傳輸過程中能夠適合不同的傳輸環境，例如物聯網、無線網等一些不可靠網絡環境。1.2 主要關鍵詞的介紹

視頻分析：利用機器學習方法或深度學習方法提取視頻特征，此過程如果是在點播（VoD）的環境下手工標注也可以。視頻分析不屬于流傳輸的范疇，是屬于機器學習或者視頻檢索領域，近年來深度學習技術在圖像和視頻語義分析領域取得了巨大成功，有許多成果可被利用。國際上一般使用MPEG-7標準管理多媒體元數據的存儲和訪問。

內容分級：基于領域知識或者用戶偏好對視頻內容進行重要性分級，不同的系統要根據不同的應用目標做內容分級。

效用優化：在網絡約束或者無線網絡不穩定情況下，流傳輸相關的視頻參數如幀率、碼率等的改變對用戶QoE的影響效果，可以通過一些擬合方法進行建模。

實時流傳輸：是一些標準的傳輸流技術，所有的視頻流操作都離不開這些標準，自適應視頻傳輸技術必須依賴實時流傳輸技術實現信號層操作，包括RTP/RTSP、RTMP、HLS、DASH等標準。

語義級的QoE：傳統的QoE是Quality of Experience，即用戶對所播放視頻的主觀體驗及用戶對視頻內容的認可度，換而言之就是與用戶語義相關的需求（即用戶觀看的信息理解、興趣和情感等方面）是否被有效滿足。2. 視頻內容分析與分級

圖2? 視頻內容分析任務CBAVT系統的首要任務是視頻內容分析。通常，視頻內容分析分為高層、中層、低層三個層次，中層和低層可用的內容合并為中低層內容分析。高層語義分析可以利用我們熟知的領域知識，例如足球視頻、音樂視頻、電影、自拍視頻（以個人為中心的視頻）等等。

語義內容分析中有幾個容易被利用的特征。其中，情感特征容易反映觀看者的情緒變換，例如電影視頻中不同情節的情感，可以使用自動或手動方式對視頻情感特征進行標注。而對象特征可以指電影視頻或自拍視頻都會存在的主角，與主角有關的動作和場景都是比較重要的，或者監控視頻中的被關注對象。高層語義分析的通用性并不是很強，不同用戶和不同領域對語義的要求有很大的差異，因此要結合具體應用而論。

中低層語義分析特征比較通用化，其中注意力特征指眼動或者人對視頻中出現的運動變化產生的關注，此領域有許多成果可以被利用。運動特征作為視頻內容精彩與否的重要表征量，比較通用化，因此早期基于內容的自適應視頻傳輸策略都是基于運動特征的。聲音特征對情感的表達非常敏感，所以聲音特征可以用來對情感內容進行識別和標注，除此之外還有紋理特征等等。3. 視頻內容分析和標注實例

3.1 利用運動對內容進行分級
圖3? 運動特征分析

以早期我的一篇論文來作為介紹，我們對畫面內任何宏塊都可以提取運動幅值和運動方向作為運動特征，目前運動特征的提取可以達到實時化。圖3將12個標準測試視頻劃分為3個不同的運動級別：低速運動（low speed級別的視頻流），中速運動（Medium speed 運動）、高速運動（high speed運動，例如踢足球的運動）。圖中可以看出，在同樣碼率的情況下，高速運動的質量會非常低，因此在碼流切換的時候應盡可能在高速運動時切換為高碼率的傳輸。圖3中第四個視頻為低速運動，第五個視頻為高速運動，第六個視頻為中速運動，第七個視頻為高速運動。在得到運動有關的分類之后，即可把視頻分為低速運動、中速運動、高速運動三類。三種不同的運動在不同碼率下對應的視頻質量可以擬合出一條曲線，即根據碼率值、目標質量和運動特征值進行回歸分析，得到一個目標值的擬合函數。該目標值函數得到之后即可以代入優化模型。3.2 如何在語義層進行內容分級

圖4? 精彩事件分析

以娛樂性較強的足球視頻為例，通常觀眾看球最喜歡看進球和回放畫面的，這種視頻片段可以進行自動識別和標注，相應算法識別率可以達到百分之百。除此之外，還有一些重要的犯規、射門等用戶感興趣片段，識別率也可以達到百分之九十以上。假設把視頻的運動強度、鏡頭切換率（固定時間窗口內鏡頭切換的快慢）以及聲音能量三個特征參數融合為一條曲線，即可得到精彩度曲線，峰值區域就是精彩事件。對精彩度曲線可設置閾值，大于該閾值即可設置為精彩事件，進而對被傳輸視頻內容進行分級。3.3 電影視頻或者個人自拍視頻

圖5? 個性化情感分析

情感作為語義層分級的最高級或者作為高于語義層單獨稱為情感層，是視頻分析的最高層任務。該類視頻是表演者情感和觀眾情感的融合，即觀眾喜歡看何種情感的視頻，就對相應情感的片段進行優化。

由于近幾年深度學習技術在計算機視覺領域的廣泛應用，情感識別的準確率提升很明顯。例如應用Resnet-50提取深度卷積特征，應用支持向量機（SVM）分6類基本情感的概率值作為視頻的一個特征量。以鏡頭為單元，一般同一鏡頭的情感是相似的，在連續時間域內計算兩兩鏡頭之間的距離，平均后可以得到用戶的偏好強度。

例如用戶為女生則會喜歡情感性比較強的電影，比如泰坦尼克號或者再見前任等；用戶為男生一般會喜歡功夫熊貓、速度與激情等一系列的電影。4. 優化策略模型

圖6? 基于內容的自適應傳輸優化模型

圖6是一個多維背包問題，邏輯上將視頻看作一個個時間域上連續排列的獨立單元，每個單元可能是一個幀或者片段，已被標注相應的級別值。在滿足當前的約束條件下（如帶寬、幀率或者碼率等），保證被傳輸單元的所有級別值的總和最大化即可。顯然做一個多維背包問題很困難而且耗時，但在實際使用中卻沒那么復雜，比如在丟幀的情況下，每次只能丟一幀，該背包問題則成為一維背包問題；如果是多片段的編碼流，在服務器上只有有限版本的碼流情況下，則成為有限背包問題。4.1 標注流傳輸單元

語義分級或者語義標簽標注在流傳輸單元上，視頻流結構決定標注粒度，以下為幾種標注流傳輸單元：（1）包級：IP包是獨立的傳輸單元，主要是一種網絡解決方案。

（2）幀級：在視頻傳輸中幀是獨立的編解碼單元，一個幀至少要包含在一個包里面，保證幀在傳輸過程中是安全的，否則解碼后會出現馬賽克。

（3）片段級：當傳輸單元是一個片段時，即傳輸單元是一個Segment或者Chunk,包含多個幀，但起始幀一定是關鍵幀，否則切換時無法解碼。

圖7? 與流傳輸單元相關的語義標注值

如圖中，虛框表示邏輯上的標注，語義標簽可標注在幀上，也可以標注在片段上，具體依據不同的流傳輸系統而定。5. 自適應流傳輸技術

5.1 實時流傳輸實現：基于RTP/RTSP

圖8? RTSP丟幀操作

標注完成之后進行丟幀操作，一般情況下在實時流中丟棄一定非參考幀，可以將碼率降低50%~30%，同時也能夠保證解碼時不出錯。丟多少幀可由內容的級別決定，級別越高的內容丟幀越少，級別低的幀不能丟P幀，因為會出現明顯的卡頓。5.2 實時流傳輸實現：基于DASH碼流切換

圖9? 碼流切換操作

碼率切換的一個優點是不會出現卡頓。缺點是如果碼率切換太頻繁，就會出現用戶對質量的焦慮感，因為碼率從低到高的切換用戶比較容易接受，反之就會比較難接受。因此根據內容重要性級別在不同質量碼流間切換時，還要考慮緩存分配，可以給高碼率的視頻預留一些緩存，這樣高速運動的視頻傳輸時可以盡量調高碼率。綜合應用網絡資源分配優化傳輸質量是一個比較好的策略。5.3 視頻流質量評價

在實時的傳輸過程中，需要對傳輸質量進行評估，以評判自適應傳輸算法是否有效，包括客觀質量、語義級QoE兩種評判方法。

目前對視頻客觀質量的評價標準有以下幾種方法：

PSNR：最早傳統的方法，是基于像素值失真的度量。
SSIM：基于結構失真的度量，與PSNR相比更敏感，往往PSNR不明顯時SSIM更明顯。
VQM：基于感知域失真的度量，是通過人可以感知運動、紋理等事物的參數的度量來評價視頻的質量，很多現有的方法普遍認為VQM更符合人眼的質量感知（但就我認為，VQM是做加權平均值，往往比較模糊，存在誤差，某些情況下誤差會更大。）
VMAF：基于機器學習模型的失真度量，缺點是運行時間比較長，但準確度與PSNR、SSIM相近。

5.3.1 SSIM客觀質量評價

圖10? 客觀質量評價

分別對四種電影視頻進行BA（基于緩存的自適應方法）、PANDA（基于帶寬的自適應方法）、CDASH（基于內容的自適應傳輸方法）三種質量評價之后，從圖10中可以看出對于電影視頻是很有效的，因為電影視頻中一部分是低速運動，一部分是高速運動，所以低速運動（低碼率傳輸）可以為高速運動（高碼率傳輸）片段預留緩存時間，因此效果很好。但是在Bigbunny（動畫片）中，運動的級別都相近，一部分是低速運動一部分是中速運動。Timber（音樂劇），大部分都在跳Disco，所以運動級別非常高，大部分視頻內容都是高級別運動，無法預留緩存時間，因此算法的效果不是很好。

5.4 語義級QoE

要做到了解用戶的語義需求是否被滿足，則需要做一些用戶調查，可以設置模板或者問卷，讓用戶進行回答，例如以下幾點：

用戶關注的運動內容是否平滑清晰
用戶關注的進球事件是否完整無缺失
用戶關注的情感內容是否完整無缺失
用戶關注的教學內容是否清晰可讀
用戶關注的對象是否清晰可識別

5.4.1 語義級QoE評價

圖11? 主觀質量評價

最后發現用戶的回答是符合評價需求的。6. 基于實時流傳輸技術實現

（1）跨層控制：基于包的控制

把語義層的特征放到信號層，在信號層與IP包自身所帶協議的標頭進行設置，利用MPLS（多標簽路由）、802.11e（提供不同概率的轉換機制）、SDN實現基于丟包/選擇路由等操作對分級視頻數據包進行操作。

（2）鏈路控制（又稱丟幀控制）

鏈路控制基于GoP結構保證關鍵幀和P幀的順序，再丟棄一定比率的非關鍵幀可以降低碼率，但實際應用有局限性，一般情況下只能降低30%左右碼率，再大了就會導致明顯的卡頓。

（3）切換控制

切換控制是基于HTTP協議，丟幀或丟包的概率不大，是基于碼流切換的策略，會造成卡頓或者黑屏。7. 行業現狀、相關應用7.1 足球視頻Highlight傳輸

圖12? 面向足球視頻點播的CBAVT系統

將足球視頻內容分為0、1、2三個精彩度級別，2為最高優先級，1是中等，0是帶球等普通場景，標注后與視頻本身的GoP結合在一起實現RTP分包的發送，進行相應丟包操作，監控網絡狀態可以用RTCP包。7.2 視頻情感內容自適應傳輸

圖13? 面向電影視頻流的情感自適應系統

把情感特征與MPD文件關聯在一起，在傳輸之前讀取相關情感特征，然后與用戶歷史觀看視頻的情感特征比對得到視頻分級的標注，輸入到客戶端的決策模塊中，客戶端的決策模塊決定下載何種比特流，發送HTTP請求，在服務器上下載對應的視頻片段即可。該模型實現在DASH標準客戶端，有兩個版本，一個是java版本，另一個是VC版本。

目前實際應用中的自適應視頻流傳輸更多的是利用信號層參數優化傳輸，而對于視頻內容特別是語義層的關注相對比較少，主要原因可能在于做視頻流傳輸的人員可能沒做過視頻分析或者視頻檢索相關工作，關注度不夠；另外由于要考慮時延問題，會覺得內容分析時延較大滿足不了實時任務，但實際上應該多嘗試一些辦法降低時延，可以通過邊緣節點的代理或者配置來提高各種文件的讀取，作為任何一個特征文件，其實可以共享。

LiveVideoStack?秋季招聘

LiveVideoStack正在招募編輯/記者/運營，與全球頂尖多媒體技術專家和LiveVideoStack年輕的伙伴一起，推動多媒體技術生態發展。同時，也歡迎你利用業余時間、遠程參與內容生產。了解崗位信息請在BOSS直聘上搜索“LiveVideoStack”，或通過微信“Tony_Bao_”與主編包研交流。

總結

以上是生活随笔為你收集整理的基于内容的自适应视频传输算法及其应用的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：快手直播平台演进之路
下一篇：网易易盾李雨珂：服务性能+算法确定性优化

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

基于内容的自适应视频传输算法及其应用

總結