机器学习帮助WebRTC视频质量评价
本文來自CosMos Software創始人Alex. Gouaillard的博客,他同時為WebRTC、QUIC等標準組織工作。LiveVideoStack對原文進行了摘譯。
文 / Alex. Gouaillard
譯 / 元寶
原文 http://webrtcbydralex.com/index.php/2018/10/11/webrtc-video-quality-assessment/
如何確保WebRTC視頻通話或視頻流的質量良好呢?可以從統計API中獲取所有可能的指標,但仍然無法接近答案。原因很簡單。首先,報告的大部分統計數據都是關于網絡的,而不是視頻質量。然后,眾所周知,并且嘗試過的人也知道,雖然這些影響了通話的感知質量,但它們并不直接相關,這意味著您無法根據這些指標猜測或計算視頻質量。最后,通話質量是一個非常主觀的問題,而這些問題是計算機難以直接計算的。
在受控環境中,例如在實驗室中,或在進行單元測試時,人們可以使用參考指標進行視頻質量評估,即在發送方標記帶有ID的幀,然后捕獲接收方的幀,匹配ID (以補償抖動,延遲或其他網絡引起的問題)并測量兩個圖像之間的某種差異。谷歌的 “ 全棧測試 ” 可以解決許多編解碼器和網絡損傷的問題,可以作為單元測試套件的一部分運行。但是如何在生產和實時中做到這一點呢?
對于大多數WebRTC PaaS用例,參考框架(https://chromium.googlesource.com/external/webrtc/+/master/video/full_stack_tests.cc)不可用(服務提供商以任何方式訪問客戶內容都是非法的)。當然,服務的用戶可以在發送方和接收方來記錄流,并離線計算質量得分。但是,這不允許對突然的質量下降采取行動或做出反應。它只會有助于事后分析。那么如何在不需要額外錄音、上傳、下載...的情況下實時檢測到質量下降并采取行動呢?
在我的案例中,或者在某些特定情況下,哪個WebRTC PaaS提供了最佳視頻質量呢?對大多數人來說,這是一個無法回答的問題。如何在檢測網絡的同時實時、自動實現4×4比較,或者這種Zoom與WebRTC(https://jitsi.org/news/a-simple-congestion-test-for-zoom/)的比較呢?
CoSMo R&D推出了一種新的基于人工智能的視頻評估工具,與其KITE測試引擎和相應的網絡儀表模塊相結合,實現了這一壯舉。
介紹
1992年,康奈爾大學(Cornell University)的CU-SeeMe開始進行第一次互聯網上實時通信(RTC)實驗。隨著Skype在2003年8月的推出,RTC在互聯網上迅速普及。從2011年開始,WebRTC技術使得RTC可以直接在web瀏覽器和移動應用程序上使用。
根據2017年6月發布的思科視覺網絡指數【1】,實時視頻流量(流媒體,視頻會議)應從2016年互聯網視頻流量的3%(每月1.5 exabyte)急劇增長到2021年的13%(每月24 exabyte)。
對于任何處理視頻的應用程序,終端用戶的體驗質量(QoE)是非常重要的。行業中已經有許多工具和指標來自動評估視頻應用程序的QoE。例如,Netflix開發了視頻多方法評估融合(VMAF)度量【2】,通過使用不同的視頻編碼器和編碼設置來度量交付的質量。這個度量有助于常規和客觀地評估幾十個編碼設置下的數千個視頻編碼的質量。
但它需要原始參考非失真視頻來計算壓縮后的視頻質量得分。該方法很好地適用于非失真視頻預先錄制內容的視頻流,但不適用于RTC,因為RTC通常無法提供原始視頻。?
可以從源端記錄原始視頻,但是不能實時地進行視頻質量評估。此外,在實時通信期間錄制實況視頻會帶來法律和安全問題。由于這些原因,執行視頻質量評估的實體(例如第三方平臺即服務)可能不能被授權存儲視頻文件。
因此,RTC的特殊情況不能通過需要參考視頻的度量來解決。因此,有必要使用無需參考指標的評估方法。這些指標稱為無參考視頻質量評估(NR-VQA)指標。
I. 視頻質量指標
視頻質量評估技術可分為三類。
首先,存在全參考(FR)技術,其需要完全訪問參考視頻。在FR方法中,我們發現了傳統的視頻質量方法:信噪比(SNR),峰值信噪比(PSNR)【3】,均方誤差(MSE),結構相似性(SSIM)【4】,視覺信息保真度(VIF)【5】,VSNR【6】或視頻質量度量工具(VQM)【7】。
這些指標眾所周知且易于計算,但它們并不能很好地反映用戶體驗的質量 【8、9】。
然后存在縮減參考(RR)技術,其需要從參考視頻提取的一組粗略特征。
最后,無參考(NR)技術不需要關于參考視頻的任何信息。實際上,他們根本不需要任何參考視頻。
對NR視頻質量指標的全面而詳細的評論已于2014年發布【10】。最近對音頻和視頻質量評估方法的調查已于2017年發布【11】。 度量被分為兩組:基于像素的方法(NR-P),其根據從基于像素的特征導出的統計來計算,以及比特流方法(NR-B),其從編碼的比特流計算。
II. 先前為WebRTC視頻質量評估所做的努力
在文獻【12】中已經提出了通過WebRTC向許多觀眾評估廣播視頻質量的第一個舉措。對于這個實驗,作者使用SSIM索引【4】作為視頻質量的衡量標準。測試的目的是測量有多少觀眾可以加入觀看廣播,同時保持可接受的圖像質量。在準確評估用戶體驗時,結果并不確定。隨著加入廣播的觀眾數量的增加,SSIM測量值仍保持令人驚訝的穩定,其值為[0.96,0.97]。然后突然,當客戶端數量達到大約175時,SSIM下降到接近0的值。當從1到175的觀眾增加時,用戶體驗不可能在沒有質量損失的情況下保持可接受。此外,測試使用的是偽客戶端,只實現了WebRTC中負責negotiation和傳輸的部分,而不是WebRTC媒體處理管道,這對于評估廣播實驗的視頻質量是不現實的。
在文獻【13】中,作者評估了在有損網絡上壓縮和傳輸受損的視頻上的各種NR指標(0到10%丟包率)。研究的八個NR度量是復雜性(幀中存在的對象或元素的數量),運動,塊效應(相鄰塊之間的不連續性),急動(幀的非流暢和非平滑呈現),平均模糊,模糊比,平均噪音和噪音比。由于這些NR指標中沒有一個能夠準確評估此類受損視頻的質量,因此他們建議使用機器學習技術將若干NR指標與兩個網絡測量(比特率和數據包丟失水平)相結合,以提供改進NR度量標準能夠提供與視頻質量度量(VQM)相當的視頻評級,這是一種可靠的FR度量,可提供與人類感知的良好相關性。在本次實驗中,他們使用了從實時質量視頻數據庫獲得的十個視頻。這些視頻使用H.264在8個不同級別進行壓縮,并且通過網絡傳輸時受到了損害,網絡丟失了12個包。
他們根據FR度量標準視頻質量度量(VQM)【14】給出的分數評估了他們的結果質量,但沒有針對NR度量。
在文獻【15】中,作者依靠許多基于比特流的特征來評估接收視頻的損傷以及這些損傷如何影響感知視頻質量。
論文【16】提出了音頻和視頻指標的組合來評估視聽質量。評估已在兩個不同的數據集上進行。
首先,他們展示了FR指標組合的結果。作者選擇的FR音頻指標是音頻質量的感知評估(PEAQ)【17】和ViSQOL【18】。至于FR視頻指標,他們使用視頻質量度量(VQM)【7】,峰值信噪比(PSNR)和SSIM【4】 。
然后他們展示了NR指標組合的結果。NR音頻指標是SESQA和降低的SESQA(RSESQA)【19】。對于NR視頻指標,他們使用了塊狀模糊度量【20】,盲/無參考圖像空間質量評估器(BRISQUE)【21】,盲圖像質量指數(BIQI)【22】?和自然圖像質量評估器( NIQE)【23】。兩個數據集的最佳組合是RSESQA的塊狀模糊。
最近在移動寬帶網絡上評估WebRTC視頻流體驗質量的實驗已在文獻【24】中發表。各種分辨率的不同視頻(從720×480到1920×1080)通過Chrome瀏覽器和Kurento Media Server之間的WebRTC進行視頻通話的輸入。WebRTC視頻的質量由28人主觀評估,得分從1(質量差)到5(優質)。然后,作者使用了幾個指標,這些指標均基于原始視頻和WebRTC視頻之間計算的錯誤,以客觀地評估WebRTC視頻的質量。不幸的是,作者沒有清楚地報告主觀評估與計算的客觀測量之間是否存在相關性。
III. ?NARVAL:基于神經網絡的視頻質量評價無參考指標的聚合
III.1 方法論
這項工作主要有兩個部分:第一,從代表視頻會議用例的視頻中提取特征(與例如Netflix使用的預先錄制的內容),然后訓練模型以預測給定的分數視頻。我們使用了六個公開可用的視頻質量數據集,其中包含視頻通信期間可能出現的各種失真,以訓練和評估我們模型的性能。
NARVAL TRAINING:密集深度神經網絡圖
對于特征提取部分,我們選擇了在不同圖像質量數據集上發布和評估的度量和特征。在我們的數據庫的視頻上計算它們之后,我們存儲了數據以便能夠在訓練部分中重復使用它們。然后可以處理數據以用于我們的訓練模型,例如取得視頻上的特征的均值。第二部分,我們使用了不同的回歸模型,主要是輸入和層變化的神經網絡,也支持向量回歸。
我們為每個模型測試了多個參數組合,并且僅針對每個模型類別保持最佳。除了最基本的神經網絡之外,還使用了卷積,循環和時間延遲神經網絡。
NARVAL TRAINING:3D卷積網絡圖
我們使用5倍擬合在數據庫上訓練我們的模型,然后多次重復訓練。由于每個數據庫包含多個失真,我們不能隨意拆分折疊,因此我們嘗試選擇5個折疊,這樣所有失真都存在于一個折疊中,并且我們對所有測試保持相同的分布。然后,只考慮折疊的平均值。
另一種創建折疊的方法是制作一個視頻,它的變形是一個折疊。使用這種方法,折疊會更小,驗證折疊對模型來說是全新的。
III.2 結果
首先針對訓練集(即具有已知分數的集合)進行驗證,以查看我們計算的視頻質量是否與已知值匹配,如下所示。
為了進行健全性檢查,我們再次計算了NARVAL在相同參考視頻上的SSIM和WMAF分數所提供的分數。我們可以看到,雖然不完全相同,但得分表現出相同的行為。有趣的是,它還說明了圖像處理社區中已知的結果,但在WebRTC社區中顯然是違反直覺的:感知視頻質量不會隨比特率/帶寬線性降低。您可以在下圖中看到,要將質量降低10%,您需要將帶寬減少6到10倍!
結論
實際上,這意味著您現在可以使用NARVAL在沒有參考幀或視頻的情況下計算視頻質量!它為現有用例中更簡單的實現打開了大門,并為許多新的用例打開了大門,在這些用例中,可以在流式傳輸管道的任何給定點進行質量評估。
完整的研究報告可從CoSMo獲得。CoSMo還為兩個實現提供許可證:一個用于研究和原型設計的Python實現,以及一個用于速度和SDK嵌入的C / C ++實現。最終,視頻質量評估將被提議作為一種服務,與 Citrix的AQA服務建立在POLQA之上。
參考文獻
[1] – Visual Networking Index, Cisco, 2017.
[2] – Toward A Practical Perceptual Video Quality Metric, Netflix, 2016.
[3] – Objective video quality measurement using a peak-signal-to-noise-ratio (PSNR) full reference technique, American National Standards Institute, Ad Hoc Group on Video Quality Metrics, 2001.
[4] – Image Quality Assessment: From Error Visibility to Structural Similarity, Wang et al., 2004.
[5] – Image information and visual quality, Sheik et al., 2006.
[6] – VSNR: A Wavelet-Based Visual Signal-to-Noise Ratio for Natural Images,
chandler et al., 2007.
[7] – A new standardized method for objectively measuring video quality, Margaret H. Pinson and Stephen Wolf, 2004.
[8] – Mean Squared Error: Love It or Leave It? A new look at Signal Fidelity Measures, Zhou Wang and Alan Conrad Bovik, 2009.
[9] – Objective Video Quality Assessment Methods: A Classification, Review, and Performance Comparison, Shyamprasad Chikkerur et al., 2011.
[10] – No-reference image and video quality assessment: a classification and review of recent approaches, Muhammad Shahid et al., 2014.
[11] – Audio-Visual Multimedia Quality Assessment: A Comprehensive Survey,Zahid Akhtar and Tiago H. Falk, 2017.
[12] – WebRTC Testing: Challenges and Practical Solutions, B. Garcia et al., 2017.
[13] – Predictive no-reference assessment of video quality, Maria Torres Vega et al., 2017.
[14] – A new standardized method for objectively measuring video quality, Margaret H. Pinson and Stephen Wolf, 2004.
[15] – A No-Reference bitstream-based perceptual model for video quality estimation of videos affected by coding artifacts and packet losses, Katerina Pandremmenou et al., 2015.
[16] – Combining audio and video metrics to assess audio-visual quality, Helard A. Becerra Martinez and Mylene C. Q. Farias, 2018.
[17] – PEAQ — The ITU Standard for Objective Measurement of Perceived Audio Quality, Thilo Thiede et al., 2000.
[18] – ViSQOL: The Virtual Speech Quality Objective Listener, Andrew Hines et al., 2012.
[19] – The ITU-T Standard for Single-Ended Speech Quality Assessment, Ludovic Malfait et al., 2006.
[20] – No-reference perceptual quality assessment of {JPEG} compressed images, Zhou Wang et al, 2002.
[21] – Blind/Referenceless Image Spatial Quality Evaluator, Anish Mittal et al., 2011.
[22] – A Two-Step Framework for Constructing Blind Image Quality Indices, Anush Krishna Moorthy and Alan Conrad Bovik, 2010.
[23] – Making a “Completely Blind” Image Quality Analyzer, Anish Mittal et al., 2013.
[24] – Quality of Experience Estimation for WebRTC-based Video Streaming, Yevgeniya Sulema et al., 2018.
[25] – Real-time communication testing evolution with WebRTC 1.0, Alexandre Gouaillard and Ludovic Roux, 2017.
[26] – Comparative study of WebRTC Open Source SFUs for Video Conferencing, Emmanuel Andre et al., 2018
總結
以上是生活随笔為你收集整理的机器学习帮助WebRTC视频质量评价的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: FFmpeg在Intel GPU上的硬件
- 下一篇: Zoom的Web客户端与WebRTC有何