腾讯多媒体实验室重磅开源视频质量评估算法DVQA
近日,騰訊多媒體實驗室設計的基于深度學習的全參考視頻質量評估算法 DVQA 在 Github 上正式開源,該算法模型的性能目前在公開測試數據集上取得業界領先成績。
視聽時代,音視頻應用越來越廣泛:直播、短視頻、視頻節目、音視頻通話……近期由于新冠疫情帶來的在線協同辦公、在線教育類產品的崛起,更帶來了線上音視頻需求的爆發,用戶對音視頻質量訴求也愈加強烈。
在整個視頻鏈路中,大部分模塊都可以精確度量,如采集、上傳、預處理、轉碼、分發等。然而未知的部分卻恰恰是最關鍵的部分,即用戶的視頻觀看體驗到底怎么樣。目前行業內的視頻質量評估方法分為兩大類:客觀質量評估與主觀質量評估。前者計算視頻的質量分數,又根據是否使用高清視頻做參考、源視頻是專業視頻還是用戶原創視頻等進一步細分;后者主要依賴人眼觀看并打分,能夠直觀反映觀眾對視頻質量的感受。然而,這些方法仍存在耗時費力、成本較高、主觀觀感存在偏差等難題。
多媒體實驗室提出的視頻質量評估解決方案,首先結合業務需求,使用“在線主觀質量評測平臺”,來構建大規模主觀質量數據庫,同時使用所收集的主觀數據來訓練基于深度學習的客觀質量評估算法,最后把訓練好的質量評估算法部署到業務線中,閉環監控可能存在的質量問題。從以上三個角度出發,DVQA 能夠在兼顧不同業務、場景的前提下,滿足效率與精度兩大需求。
DVQA 包含多個質量評估算法模型,本次開源的是針對 PGC 視頻的算法 C3DVQA。本項目使用 Python 開發,深度學習模塊使用 PyTorch。代碼使用模塊化設計,方便集成較新的深度學習技術,靈活的自定義模型,訓練和測試新的數據集。
在算法設計上,C3DVQA 所使用的網絡結構如下圖所示。其輸入為損傷視頻和殘差視頻。網絡包含兩層二維卷積來逐幀提取空域特征。級聯后使用四層三維卷積層來學習時空聯合特征。三維卷積輸出描述了視頻的時空掩蓋效應,再使用它來模擬人眼對視頻殘差的感知情況:掩蓋效應弱的地方,殘差更容易被感知;掩蓋效應強的地方,復雜的背景更能掩蓋畫面失真。
網絡最后是池化層和全連接層。池化層的輸入為殘差幀經掩蓋效應處理后的結果,它代表了人眼可感知殘差。全連接層學習整體感知質量和目標質量分數區間的非線性回歸關系。
在評測結果上,騰訊多媒體實驗室在 LIVE 和 CSIQ 兩個視頻質量數據集上對所提出算法的性能進行驗證。并使用標準的 PLCC 和 SROCC 作為質量準則來比較不同算法的性能。將所提出的 C3DVQA 與常用的全參考質量評估算法進行對比,包括 PSNR,MOVIE,ST-MAD,VMAF 和 DeepVQA,結果如下表所示。
(LIVE 和 CSIQ 兩個數據庫上不同全參考算法性能比較)
目前該評估算法已在騰訊內外部多款產品中進行使用驗證,如騰訊會議就借助實驗室上百個符合 ITU/3GPP/AVS 等國外內標準的指標進行評判,閉環監控全網的用戶體驗質量,從用戶真實體驗出發,不斷優化產品性能。
作為最早布局音視頻領域的公司之一,從最早的 QQ 平臺,騰訊就試圖解決在當年網絡條件下若干的音視頻通信問題。伴隨著 5G、云計算、大數據、人工智能技術的發展,騰訊多媒體實驗室基于多年的技術沉淀和行業經驗,逐步打磨出一條完善且高質量的音視頻技術鏈條。
總結
以上是生活随笔為你收集整理的腾讯多媒体实验室重磅开源视频质量评估算法DVQA的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 谷歌地图将在冠状病毒爆发期间为企业用户和
- 下一篇: 衣物经漂白水洗过后用太阳晒还对人体有害吗