无参考质量评估在视频增强的进展与应用
文 / 高孟平
整理 / LiveVideoStack
大家好,我是來自騰訊音視頻實驗室的高孟平,本次與大家分享的主題是無參考質量評估在視頻增強的進展與應用,無參考質量評估在許多無法取得參考信息的實際系統中應用廣泛且十分重要,在演講中將借由騰訊麗影視頻服務平臺的實踐經驗,分享如何以客觀的無參考質量評價,閉環指導視頻增強演算法的適配,達到最佳的人眼視覺喜好效果。面向以人眼視覺為標準,從事圖像或視頻增強的演算法工程師們,希望可以從中激發新的想法,并一起推動無參考質量評估在人眼視覺的更多應用。
1. Why Non-Reference Quality?
Assessment?
大家可能對有參考質量評估有一定了解,某些有參考評價在應用上會有所限制,甚至在視頻增強領域會存在不適應性,因此在第一階段內容里會提到騰訊在無參考質量評估方面投入的原因以及想要去解決的一些問題,同時也會為大家列舉幾個在業界常用的有參考/無參考、傳統學習/ 深度學習的質量評估方案。第二階段會為大家介紹目前騰訊在使用的無參考質量評價,運用Rank Learning基于深度學習解決視頻清晰度的打分方案。最后會對未來技術發展可能性和可能會遇到的挑戰做一些總結。
1.1 Tencent Liyin
最近騰訊音視頻實驗室推出的人眼感知視頻服務平臺Tencent Liying把視頻服務分為以下幾個部分,分別為視頻理解、視頻處理、視頻編解碼/傳輸和質量評估。Enhancement是指視頻處理中的視頻增強(視頻超分、清晰度增強、降噪等)部分,視頻處理過程中如果有引入視頻增強的操作,傳統的全參考評價都沒辦法反映出視頻修復增強的效果,因為全參考評價的設計指標就是與原視頻無限接近才能夠達到滿分,這樣不能反映人眼主觀的MOS (Mean Opinion Score) 分數。
過去如果用編碼衡量,參考上圖中左圖單調下降的編碼曲線,碼率越低的情況下人眼可識別的視頻質量就越差,但視頻增強在右圖中銳度增強的評價卻類似二次曲線,網絡上所有的視頻在進行很小一部分的視頻增強操作之后,MOS值和人眼的感覺會上升,但銳度過多之后容易產生卡通效應,同時噪聲也會被放大,整體呈現的效果與視頻編碼的單調曲線不同。
1.2 Quality Assessment by Types
要解決編碼和銳度所帶來的一系列問題,依照單調曲線來看,編碼自然是越接近原視頻越好,對視頻破壞少一點分數也會相應高一些,但是對于銳度來說,銳度程度越高用戶越喜歡,銳度的grading值不能反映人眼Quality Assessment,在視頻增強里這是一個完全不一樣的領域,所以要引入一些不同的參考質量評估方法。
上圖列了幾個視頻評估的方法分類,第一類是Full Reference (FR) vs Non Reference (NR),即有/無參考質量評估,Non Reference在應用場景中應用比例較高。第二類是基于參考評價分為Traditional vs Deep Learning (DL),傳統方法譬如信號處理PS3R,人的感官對于結構化更加敏感,透過人眼的喜好度進行MOS評分讓打分機制進行學習,是通過Deep Learning (DL)實現。第三類根據打分分為Distortion Generic vs General (Enhancement Included)、Coarse Grain vs Fine Grain和Image (IQA) vs Video (VQA)。Distortion Generic加了許多的噪聲破壞(單調破壞),由于在其中某些東西是一直上升到MOS到達一定程度后又呈現下降趨勢,所以目前很少能看到Distortion Generic的訓練集。質量評估可以作為產品上線后的監督,也可以介入閉環的開發過程評估演算法。Image (IQA) vs Video (VQA)區別在圖像和視頻部分。
1.3 WaDIQAM(NR)
上圖中有關Non Reference (NR)、Deep Learning (DL)、Image (IQA)圖像質量評估可以看到,進來一張圖通常會取N個Patch,每個塊通過CNN深度學習網絡找到Image 的feature,之后針對每個塊的權重和特征來學習它的位置以及在質量評估中的比例(Patch Weight Estimate),Patch Quality Estimate是通過CNN抽取feature之后做 Regression,再通過線性回歸得出MOS分數,最后將Patch Weight Estimate和Patch Quality Estimate做一個結合得到Image Quality Estimate。
LIVE和TID2013是兩個主觀評價的訓練集,包含各式各樣的圖片、Destruction和打分,LCC和SROCC是關于質量評估的兩個指標,LCC是通過相關性和準確性衡量算法性能,SROCC是通過單調順序性衡量算法性能,這兩個指標越接近1越好。Non Reference (NR)Wa方法的表現還算不錯,而且有對應的Full Reference (FR)版本,在大家的理解上普遍存在Non Reference (NR)方法比Full Reference (FR)稍差的概念。
1.4 DeepVQA
DQA相較于IQA多了一些時域上的信息,由上圖可知,上層兩張frame圖是壓縮破壞前的Original frame,下層顯示的是壓縮破壞后的圖片,有frame1和frame2的motion map,所以是存在時域上的特征。
在網絡里相當于是把四個東西concatenate在一起,它有衡量IQA輸入的Distorted Image,也有motion上的Distortion 可以把frame1和frame2相減,它把Temporal Error map傳輸進去,也不止是把破壞過的圖像傳入進去,它是Full Reference (FR)但也把Reference 時域上的差距傳進去建構CNN,最后得到Subjective Score。真正測試時會通過上層已經經過訓練的網絡,再通過某個Temporal weight和pooling把時域上的信息抽取出來。
2.Non-Reference Sharpness Assessor Using Rank Learning
騰訊音視頻實驗室的目標很明確,就是能夠給具有視頻增強能力的服務做一個符合人眼效果的打分。
2.1 RankIQA[ICCV 17]
團隊的base是ICCV在2017年的paper RankIQA,RankIQA是一個Non Reference (NR)、Deep Learning (DL)的IQA,它主要解決了收集資料的成本問題。RankIQA希望用越少越好的資料使得Deep Learning網路不會出現訓練集太少不好收斂的狀況。它解決的方法是基于一組美學較好的訓練集,交由機器去產生一連串的單調破壞,將原始圖片用不同的失真方法結合不同的失真強度進行失真,這樣得到大量不同程度失真的圖片。rankings形成兩兩組合,傳入孿生網絡,然后得到高級特征(可以認為是quality score)進行比較,計算出loss,然后反向傳播。但這樣得到的結果還是不能與人眼打分效果相比,所以RankIQA在模型訓練好后,取孿生網絡的一支去跟將人眼的MOS分數再進行一次學習,這樣相比傳統方法所需的資料量將大大減少。
上圖為RankIQA[ICCV 17] - SROCC在TID2013資料集上的表現。論文中提出在某些數據集上甚至超越了Full Reference (FR) 的方法。
2.2 NR Sharpness Assessor Using Rank Learning
團隊借用了RankIQA的想法,解決了Label Shortage Problem的問題,通過這個方式可以產生大量的數據集,學習到不同程度的破壞,但團隊也在此基礎上完善了RankIQA對于非單調性破壞的問題,使用Data Set Preparation AVA的professional圖片資料集,在對這個資料集進行一輪的資料清洗之后,找到professional認為最佳的銳度和blur等,之后再在這上面做銳化和blurring兩方向的處理,學到最佳的銳度圖形是在哪里。團隊在工程上將Ranking Loss和L1 Regression Loss結合,孿生網絡在訓練過程中使用Ranking Loss,而在與人眼評判二次學習時使用L1 Regression Loss,后來發現在二次學習前引入Ranking Loss的話對PLCC和SRCC的分數會更有幫助。Patch存在很多問題,一張圖在測試時通常會做十遍取平均值,但在商業化后希望一張圖無論執行多少次得到的評判結果都是唯一的,因此改用Mobilenet + FCN。
在團隊沒有解決FCN的問題時,也是用了一些Patch來構建孿生網絡,每一個Patch都有不同的分數,后續還需要進行一些微調和融合。
2.3 Fully Convolutional MobileNet
Fully Convolutional MobileNet 的好處是整張圖在處理過程中不進行Patch直接Convolutional,有點像圖像超分辨率或者一些視頻處理模塊的網絡概念。
2.4 NR Sharpness Assessor PLCC / SRCC Performance
上圖最右邊是不同主觀MOS打分訓練集和測試集的Performance,左邊BID、LIVE和TID2013是比較常見的訓練集,橫軸表示各個不同的質量評估打分。
2.5 NR Sharpness Scores
上圖最下方的評分,例如左圖一中0.847是Sharpness Scores打出的分數,括號中0.5是人眼評判的結果,人眼評判的結果大概范圍為0.5-0.7之間,L0是針對同一個視頻去做不同程度的銳化,銳化過度人眼就會判定為不佳的圖像質量,人對視頻曲線增強不是單調曲線上升或下降。
上圖的視頻源屬于Monotonically Decreasing,越對視頻增加銳化,人眼對視頻的判定就會越差。從字體也可以看出中間和右邊圖像比較銳利,在播放時人眼可以明顯感受到字體本身太過銳利。
2.6 NR Sharpness Assessor Applications
無參考的視覺評價在視頻修復和增強方面可以提供一個評估標準,在設計這個視頻平臺時的唯一消費者都是人,無論對視頻如何進行壓縮、處理和儲存,只要沒有人看就沒有達到技術所滿足的效果。所以下一代的視頻平臺標準就是人眼視覺,有參考視覺評價有非常好的參考效果,但是它并沒有辦法完全反映消費者的感覺。另外無參考的視覺評價對于視頻演算法的開發也有很大的幫助。
3.Future Work and Challenges
透過數據源的增加可能會比人工擬合SVN模型更具有未來演進能力,所以團隊還是希望建構一個以Deep Learning為基礎架構,在未來能夠不斷進步改善的質量頻估架構,但是從IQA到VQA,每幀圖片都是抽幀圖片去做IQA評估,然后計算平均值最后得到視頻的分數。未來如何評估人眼的運動遮蔽效應、VQA Temporal info pooling該怎么做、算法加速的問題如何解決,這些都是團隊未來要努力的方向。
視頻增強不只有銳度還包括降噪和去壓縮失真,UGC/PGC視頻經過不斷地轉發本身帶有非常多的壓縮失真,在有很多可以反映人眼評估要求的指標之后如何最終達到質量評估指標,而不只是清晰度評估指標和銳度評估指標。
另外在細粒度的增強上面也需要不斷地演進,不只是監控線上系統穩定性,而是希望這個指標將來可以細粒度到不斷地指導演算法的微調。
以上就是騰訊音視頻實驗室團隊在未來會努力的方向。
擴展閱讀
一站式體驗騰訊云音視頻及融合通信技術
360度無死角解析騰訊音視頻及融合通信技術,包括:基礎編音視頻編解碼、音視頻AI、視頻云平臺架構、終端技術、海外技術架構、技術開源策略等最新最權威的官方信息。
LiveVideoStackCon 2019北京 音視頻技術大會 初版日程現已上線,掃描圖中二維碼或點擊【閱讀原文】了解大會最新日程。
總結
以上是生活随笔為你收集整理的无参考质量评估在视频增强的进展与应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何构建分布式SFU/MCU媒体服务器?
- 下一篇: 【大会】看案例,选方案