详解优酷视频质量评价体系
萬字長文 | 詳解優(yōu)酷視頻質(zhì)量評價體系
分享嘉賓|李靜博士,阿里巴巴文娛集團資深算法專家,阿里巴巴大文娛摩酷實驗室視頻體驗與質(zhì)量團隊負(fù)責(zé)人
整理出品|AICUG人工智能社區(qū)
本文地址:https://www.6aiq.com/article/1617926511225
本文版權(quán)歸作者和AIQ共有,歡迎轉(zhuǎn)載,但未經(jīng)作者同意必須保留此段聲明,且在文章頁面明顯位置給出
導(dǎo)讀:隨著近年來用戶在社交媒體/短視頻分享平臺的重度參與,視頻多媒體內(nèi)容的消費主導(dǎo)從原來的OGC向UPGC轉(zhuǎn)變。因此UPGC圖像/視頻的質(zhì)量評價成為了目前學(xué)術(shù)界重點關(guān)注的研究熱點。由于其沒有無損的參考圖片/視頻,研究課題本身即屬于質(zhì)量評價領(lǐng)域最具挑戰(zhàn)的無參考質(zhì)量評價。除此外,社交媒體/短視頻分享平臺等的視頻來源十分復(fù)雜且多樣,導(dǎo)致質(zhì)量問題的根源可以追溯到整個視頻從拍攝到傳輸?shù)讲シ诺恼麄€pipeline,由此帶來的圖像/視頻降質(zhì)的因素為多種失真的疊加。這種對于失真類型的不可控(從失真類型到失真程度兩個維度)導(dǎo)致UPGC圖像/視頻的質(zhì)量評價更具挑戰(zhàn)性。因此如何準(zhǔn)確評價新型視覺信息的質(zhì)量從而極大化用戶體驗是目前質(zhì)量評價領(lǐng)域和多媒體視覺領(lǐng)域的熱點和難點。
本演講將圍繞5G時代移動社交場景中視頻觀看體驗的評價問題,基于視頻內(nèi)容的生產(chǎn)到應(yīng)用的pipeline,講述優(yōu)酷如何針對不同業(yè)務(wù)場景打造視頻質(zhì)量評價體系,助力移動端多媒體視頻行業(yè)的體驗標(biāo)準(zhǔn)化工作。
目錄
1、優(yōu)酷主觀測評平臺
2、算法模型
3、業(yè)務(wù)應(yīng)用
對于優(yōu)酷以及各家視頻平臺來說,我們會面臨著很多質(zhì)量評價的需求,這個質(zhì)量是包括各種各樣視頻或者是圖像的。
比如說封面圖,它的生產(chǎn)方式有很多種,可以從視頻里面去截幀,也可以做一些合成類的封面。但生成的這個封面需要去有一個評價機制去判斷它是否滿足觀眾的喜愛度。在其他維度不變的情況下,畫面質(zhì)量越好當(dāng)然觀眾越喜愛,它的點擊率也會越高,進(jìn)而形成這樣一個良性循環(huán)。因此,作為打開視頻網(wǎng)站的第一眼,封面圖是極其重要的一環(huán)。
針對UPGC 的這個視頻場景,我們同樣也需要這樣一個評價的工作。隨著抖音、快手近年來在國內(nèi)外特別的火熱,以及我們生活和工作節(jié)奏的加快,我們觀看視頻的習(xí)慣也漸漸從長視頻向短視頻、小視頻遷移。除此外,用戶也會更多的參與到短小視頻的制作中。
在視頻制作環(huán)節(jié),在采集側(cè),大家的手機性能拍照設(shè)備不盡相同。在傳輸側(cè)以及后處理,大家會用不同的軟件去修圖,去做一些美化和濾鏡的操作。算法側(cè)在自動生產(chǎn)的時候,也會有字幕擦除,增強超分等操作。這些操作都會導(dǎo)致UPGC 這種視頻比傳統(tǒng)的長視頻在質(zhì)量評價上更加復(fù)雜。
哪種后處理方式會比較好?哪種增強方式或超分方式會對于UPGC 視頻產(chǎn)生好的觀看效果?這里質(zhì)量評價算法也是非常重要的環(huán)節(jié)。特別是對于那些低質(zhì)量的視頻,我們需要在用戶上傳的第一時間,就對他提出一些建議。比如說你這個視頻分辨率太低或者主觀感知的清晰度不太好,在分發(fā)的時候,有可能不能產(chǎn)生好的分發(fā)效果。
在長視頻領(lǐng)域,一個比較典型的應(yīng)用就是老片修復(fù)。比如過去的黑白電視,或者早年的一些片子,它的清晰度較差,分辨率也比較低。現(xiàn)在隨著4k、8k的普及,當(dāng)一個低分辨率的視頻放到了高分辨率的顯示器上時,這個視覺感知效果就更加的明顯。因此,我們會經(jīng)常用一些修復(fù)和增強手段以及超分去進(jìn)行一個后處理操作。隨著機器學(xué)習(xí)、深度學(xué)習(xí)的發(fā)展,增強算法也從傳統(tǒng)的一些手工特征進(jìn)行修復(fù),變成了利用大數(shù)據(jù),利用deep learning去做這樣的一些修復(fù)。因此我們不能再利用傳統(tǒng)的質(zhì)量評價方法去對它進(jìn)行評判,是因為深度學(xué)習(xí)帶來了增強后的一些不可控的artifacts(失真)。一方面可能會表現(xiàn)為視覺上的增強,但另一方面可能引入的是一些視覺不友好的artifacts。所以我們的質(zhì)量評價在這一環(huán)也是尤其重要的。可以正向的去優(yōu)化,告訴我們怎么樣去進(jìn)行增強,人才會感覺到這是真的畫質(zhì)增強,而不是將噪聲/失真增強。
在視頻業(yè)務(wù)場景中,視覺體驗評估還有個比較有意思的應(yīng)用就是廣告特效。我們希望廣告能帶來收入提升的同時,又不去打擾用戶的觀看體驗。所以我們會生成一些比較有意思的廣告特效。那在這種情況下,對于廣告特效的視覺注意或者視覺體驗的這么一個由主觀感知到客觀評價的模型是非常重要的。首先是它能指導(dǎo)我們進(jìn)行廣告生產(chǎn)的優(yōu)化。其次也可以量化這樣的廣告有多大程度用戶是喜歡的,多大程度用戶是能夠感受到這個廣告存在,以及感受不到等等這樣一個視覺注意量化結(jié)果。
最后一個給大家分享的就是我們今年在街舞3上首次運用的一個to C端的產(chǎn)品化體驗,就是自由視點視頻(Free-Viewpoint Video, FVV)。用戶打開優(yōu)酷APP,根據(jù)大家手機型號的不同,看到的角度范圍可能也不太一樣。那么在高端機上,我們通常可以給到150度到180度這樣一個旋轉(zhuǎn)視角,用戶可以任意滑動屏幕去看想看的視角。在這個過程中,里面涉及到的算法迭代也是需要質(zhì)量評價算法介入去進(jìn)行一步步優(yōu)化,以達(dá)到用戶的流暢性的觀看體驗。
對針業(yè)務(wù)上的場景,抽象到質(zhì)量評價這塊,我們需要做的是一個體系。這個體系可以針對于圖片的美觀度進(jìn)行評價,或者對于畫質(zhì)進(jìn)行一個對比分析,以及對于UPGC的視頻進(jìn)行清晰度的判斷。還有包括剛剛說的自由視點視頻這種互動的流暢度,以及廣告視覺上的注意力的情況。
上述講的業(yè)務(wù)和技術(shù)問題,綜合到一個框架下,就形成了這個生產(chǎn)和質(zhì)量體驗量化閉環(huán)系統(tǒng)。一旦體驗可以量化的話,那么在視頻從生產(chǎn)到處理到播放的生命周期中,算法可以進(jìn)行有效迭代。比如說可以提效,或者是幫助我們提質(zhì),它是一個幫助我們優(yōu)化的過程,這是非常必要的。
當(dāng)然視覺體驗的量化往往也是最難的,因為視覺體驗它是一個非常主觀的感受。像在傳統(tǒng)的CV領(lǐng)域,對于一些物體的檢測和識別等任務(wù)是非常明確的。比如貓就是貓,狗就是狗。但是在視覺體驗中,對于同一個視頻,由于每個人的感受都不一樣,我認(rèn)為好,你可能認(rèn)為不好,這里沒有一個對錯的標(biāo)準(zhǔn)。所以在這種情況下怎么樣去標(biāo)準(zhǔn)化視覺體驗是一個非常重要的問題,我們也一直在致力于把體驗?zāi)軌蛘嬲牧炕饋?#xff0c;標(biāo)準(zhǔn)化下來。
優(yōu)酷的全視頻質(zhì)量評價中臺包含以下4個功能:第一是主觀的測試平臺,也就是最開始直接通過人去做這樣的主觀評價去獲取數(shù)據(jù),然后通過拿到的數(shù)據(jù),針對視覺感受進(jìn)行一個分析。然后我們拿到這個數(shù)據(jù)之后,就可以進(jìn)行一些客觀模型的研發(fā),比如視覺體驗(視覺體驗包括各種類型的圖片和視頻),以及視覺注意的一個預(yù)測的工作。
接下來我分三部分去講下評價體系。第一的話就是最重要的一個是優(yōu)酷的主觀評測平臺,這個是基于一切算法模型的一個基本數(shù)據(jù),數(shù)據(jù)是最重要的部分。第二個是算法模型,第三個是我們的業(yè)務(wù)應(yīng)用。
主觀評測平臺它主要包含四個模塊。首先是目標(biāo)分析模塊,然后是數(shù)據(jù)篩選模塊,第三個是評測方法設(shè)計,第四是實驗數(shù)據(jù)的分析。接下來會針對這四個模塊進(jìn)行逐一講解。
第一個是評測的目標(biāo)分析。這個通常會被人忽視,當(dāng)提到質(zhì)量評價,大家第一反應(yīng)就是質(zhì)量評價就是給人看一個東西,然后1到5打分,1就是非常差,5是非常好,用戶打分,這個分?jǐn)?shù)就是一個主觀分?jǐn)?shù)。那在這個描述中它其實簡化了整個過程。我們需要知道的第一點就是你到底想測什么,比如說我們在最開始提到的是針對于封面圖,還是針對于UPGC的視頻,針對于OGC長視頻,還是比如競品分析的這一塊(各家都是在播同一個劇,那么對于各家的編碼方式,以及相同帶寬情況下所呈現(xiàn)的質(zhì)量差異),以及包括最新的一些視頻技術(shù)3D領(lǐng)域的,比如AR、VR或者是自由試點視頻。
那這些不同的視頻領(lǐng)域或者視頻應(yīng)用場景,到底要測什么,就不再是我們之前所說的1到5的這么一個簡單打分的問題了,而是想在業(yè)務(wù)上達(dá)到什么樣的目的。所以在Qualinet White paper提到測什么是非常重要的,因為有大量的influence factors在這里邊。
我先講第一個關(guān)于視覺體驗有哪些影響因素,第一個影響因素就是系統(tǒng)性的影響因素influence factor。那這里的話主要包括capture,coding,transmission,storage,rendering,以及最后display 的時候。所有的這些環(huán)節(jié)每個系統(tǒng)的模塊都會對視頻質(zhì)量產(chǎn)生一些影響。
長視頻領(lǐng)域,因為capture 這一部分大家拿到的視頻源是一樣。所以最關(guān)鍵的部分,大多數(shù)都是在coding和transmission 的階段。對于終端用戶來說,比較重要的是rendering 和display 階段,也就是用戶拿什么樣的設(shè)備去看。
第二個比較重要的影響因素叫做context influence factor 。這個factor是跟用戶的environment相關(guān),包括了它的physical,temporal,social等等。是跟用戶當(dāng)前環(huán)境比較相關(guān)的一個influence factor。但這個也是經(jīng)常是被人忽略的。
比如說當(dāng)觀看者,他是在一個非常放松的家庭環(huán)境,還是在一個比較嘈雜的咖啡廳,還是我們通常在做主觀實驗的時候在一個規(guī)定的小黑屋標(biāo)準(zhǔn)的環(huán)境。那在不同環(huán)境下,他所感知到的視頻質(zhì)量是不一樣的。
第三個非常關(guān)鍵的因素就是人。每一個人都有自己不同的感受。如果我們把人劃分為一些group 的話,比如說性別因素,職業(yè)背景等因素以及年齡因素等等,這些也會對于每個人的觀看體驗產(chǎn)生不一樣的影響。舉個例子,我們之前做的實驗,就會發(fā)現(xiàn)女性對于視覺的觀看體驗相對來說是一個比較positive 的狀態(tài),容忍度非常高,大家對于質(zhì)量好像沒有那么高的要求。但是對于男同志來說,一般他們對于觀看的清晰度的體驗要求就特別高。還有比如年紀(jì)較大一點的人群,他們對于質(zhì)量體驗的要求就沒有那么高,但對于年輕的同學(xué)他們對這質(zhì)量體驗相對就非常高。當(dāng)然你可以認(rèn)為這個跟他的背景相關(guān)。對于一些年紀(jì)比較大的同志來說,在過去的時代中,其實并沒有經(jīng)歷太多的這種高質(zhì)量體驗的過程。他們最開始看到的視頻甚至從黑白視頻開始,過渡到了彩電,從CRT 到HD,再到UHD 這么一個狀態(tài)。那么到現(xiàn)在的UHD這種極高清體驗,甚至VR或者3D電視的時候,其實他們沒有更多的參與感在里邊。所以過去觀看的經(jīng)驗會極大程度影響他對于一個視頻的體驗判斷過程。
知道了這幾個非常重要的影響因素以后,我開始講一下,一旦確定了你要測什么,那接下來就需要進(jìn)行主觀實驗了。在進(jìn)行主觀實驗的時候,需要測哪些視頻,就需要把這些視頻都拿過來。
那在這里我們有兩個目標(biāo),第一,你所選的視頻數(shù)據(jù)必須要滿足你的實驗?zāi)康?#xff0c;就是我剛剛問的那個問題,你要到底測什么,這個非常重要。比如測長視頻的競品分析,那如果把UPGC 的視頻放在這里就很不合適,因為它一定不能夠滿足最終的實驗?zāi)康摹?/p>
第二,因為主觀實驗非常耗時,它需要很多人來參與,花一定的時間去做這樣的實驗。那么在這種情況下,我們希望可以用最少的數(shù)據(jù)來滿足算法的精度。所以這塊就跟傳統(tǒng)的CV標(biāo)簽?zāi)切╊I(lǐng)域有極大的差別,傳統(tǒng)的CV標(biāo)簽貓就是貓,狗就是狗,所以一個人打標(biāo)簽基本是沒有問題的。但是在視覺體驗這個評價上,我們一定要用很多的人去做這樣的實驗。而且需要大量的視頻或圖像去做實驗。但是又不能太大,因為整個實驗的時間成本和費用成本非常高,要進(jìn)行控制。
我們所要做的就是首先分析在所確定的實驗?zāi)康牡那疤嵯?#xff0c;有哪些因子會對實驗有影響,然后把這些影響因子有針對性的放在數(shù)據(jù)篩選過程中。
第二是你知道了這些因素受影響,但是怎么去把這些影響因子可以客觀的從數(shù)據(jù)上獲得,也就是你需要有一個數(shù)據(jù)維度的客觀測量。
第三就是采樣的策略。比如在早期,你可能會拿到萬級或者10萬級甚至更高的這樣一個視頻的數(shù)量。但是不可能把這么多的視頻全部分發(fā)出去去做主觀實驗。在這里面一定有一個采樣策略,需要有針對性的在這些視頻里選出最有代表性的一些視頻。而這些代表性的視頻是由前面的數(shù)據(jù)維度測量的指標(biāo),和前面的影響因子分析來共同決定的。
講完實驗數(shù)據(jù)的確定之后,我們就進(jìn)入了主觀方法設(shè)計階段,也就是用什么方法去測。這個一定是跟你實驗?zāi)康膾煦^的。那這里先介紹幾個經(jīng)典的主觀評測方法,是ITU他們幾十年前就已經(jīng)制定了的一些標(biāo)準(zhǔn)方法。
比如說最傳統(tǒng)的ACR(Absolute Categorical Rating) 方法。從1到5打分, 1代表非常糟糕,5代表非常好。在ITU最近的一個標(biāo)準(zhǔn)中,針對于3D的情況下, ACR其實也可以用在視覺舒適度的評測上。比如1分就代表非常不舒適,那5就代表非常舒適。當(dāng)然在這個維度下,我們其實是有一些爭議的。就是當(dāng)我們?nèi)y量一個畫質(zhì)的清晰度的時候,這對于用戶來說其實是一個相對簡單的視覺任務(wù),因為我們基本是從小到現(xiàn)在每天都在看視頻,知道什么樣的視頻是質(zhì)量好的,什么是不好的。但對于3D或者VR,并不是所有的人每天都在看這個東西。所以他曾經(jīng)看到的3D內(nèi)容,決定了他對于這個維度上的評判標(biāo)準(zhǔn)。比如他過去看的VR,是一段極其精彩的,非常美妙的官方發(fā)布的一個demo,那這種視頻在很大程度上是避免了視覺疲勞等等一系列不好的體驗。那用戶看過這個之后,他就會覺這個是非常沉浸式的,非常棒的,沒有視覺不舒適這種問題。但是如果一個人過去沒有看過好的,只看過一些比較糟糕的,清晰度極低的,戴上了以后轉(zhuǎn)一圈頭就開始暈的這種視覺體驗的話,那這個標(biāo)準(zhǔn)跟剛剛說的第一個人標(biāo)準(zhǔn)就是完全不同。
在這種情況下,如果讓不同的人去給一個要評測的3D的一個視頻進(jìn)行視覺舒適度打分,這個時候就會有極大的差距在。因為大家的評判標(biāo)準(zhǔn)極其不一樣,但是所有人又都是對的。甚至還有一些用戶之前都沒看過VR,你第一次給他看VR讓他進(jìn)行打分,他可能根本無法用5個刻度對視覺舒適度進(jìn)行劃分。
所以在某些評測任務(wù)中,這種1到5的簡單打分是不能夠代表用戶的視覺感知的,這個ACR 的評測方法通常被認(rèn)為是在復(fù)雜任務(wù)下是不具有這個精度辨別能力。當(dāng)然在大家經(jīng)常看的這種已經(jīng)有足夠經(jīng)驗的,比如畫質(zhì)這個問題上,其實ACR就已經(jīng)足夠好了,它的精度基本滿足要求。
另外一個評價方法就是如果ACR不是那么的準(zhǔn)確的話,那么比較法會相對更加準(zhǔn)確。比較法是執(zhí)行起來極其簡單,但是整個過程會非常耗時的一個方法。比較法其實也分為兩種:一種就是配對比較法,就是我給你兩個激勵,比如兩個視頻或者兩個圖片,然后每次隨機的左右排序,順序是不一樣的。然后分發(fā)給觀測者問大家,你覺得哪個質(zhì)量好,或者是針對于3D的任務(wù),你覺得哪個視覺的不舒適度會更高一些。那么這種情況下,即便用戶過去沒有什么體驗,但是在針對這種左右類似于binary 的結(jié)果來說,判斷起來也會相對容易一些,不同的人給出來的結(jié)論基本是一致的。
那另外一種方法叫DSIS,每一次我把參考視頻都放在左邊,是固定的。并且告訴用戶這是一個參考視頻,它就是完美的、無瑕的,就是我要的視頻。那么右邊放一個待測的視頻,這個視頻可能是經(jīng)過各種算法處理過的,壓縮增強或者超分過的等等。在這種情況下,去讓用戶給這個待測的視頻進(jìn)行打分。那打分的維度就是跟據(jù)左邊的完美的參考來比,你覺得它們倆之間是什么樣子,可以要用1到5打分。所以這樣其實左和右給到的測量維度是不太一樣的。一個是Pair comparison,它是單純的從你的視覺感受上來說左和右哪個好。但是DSIS這是我已經(jīng)有基準(zhǔn)的是最好的,我需要測量的是跟它的差別有多少。Pair comparison 方法的應(yīng)用場景非常多。比如像facebook 的早期,face mash 這個產(chǎn)品其實用的就是Pair comparison 的方法。
第三個介紹的方法是AccAnn (Acceptability Annoyance Method),它是一種用于測量用戶對于視覺感知接受度和容忍度的方法。這個可以用在哪兒?在一些業(yè)務(wù)場景中,我們有不同的用戶人群,例如非會員用戶和會員用戶;其次針對于用戶可能有不同的觀看設(shè)備,比如說用戶可以用手機來看,或者用ipad 來看,或者PC來看。在這個時候我們希望針對不同的用戶人群,不同的觀看設(shè)備,測量他對于視覺感知的容忍度和接受度是怎么樣的。
對于一個視頻,如果5分是滿分的話,我們不太關(guān)注這個視頻是1.5分還是1.2分,或者4.6分還是4.8分,就是對于這種精細(xì)度評判,我們在某些場景其實沒有那么高要求。但是我們希望知道的是低于哪個閾值的時候,用戶就無法容忍會離開,或者是高于某個閾值的時候,用戶對于質(zhì)量提升就沒有感知了,再增加帶寬用戶也沒有明顯的差異感受。所以找到這兩個閾值是極其重要的。
那這個方法其實就是找到這兩個閾值,最終可以幫助我們?nèi)ブ泪槍τ诓煌挠脩羧巳汉筒煌挠^看設(shè)備下,什么樣的質(zhì)量體驗是必須的,并且盡可能避免低于這個質(zhì)量。
我們曾經(jīng)在實驗室環(huán)境測試過,在TV上和Tablet上,我們實驗虛擬出來一些假設(shè)的普通用戶和premium 用戶,最終他們的VMAF 的質(zhì)量分所對應(yīng)的這兩個閾值確實是不一樣的。如這個圖所示,我們就知道在今后的視頻質(zhì)量評價中,如果用VMAF的話,在用TV觀看視頻時,高于80分,其實就覺得非常滿意了。那低于66分的時候的用戶就會覺得不能接受,就可能要離開這個視頻平臺。當(dāng)然這是一個我們實驗的數(shù)據(jù),并不是真實的業(yè)務(wù)數(shù)據(jù),這里只是提供一個參考。
除此以外有一些實驗過程其實是可以加速的。剛剛講的配對比較法,它非常的快而且非常的準(zhǔn)確。但是它非常耗時。因為ITU規(guī)定了如果你想達(dá)到精確的結(jié)果,就必須對于所有的視頻對都要進(jìn)行兩兩比較,那這個量級就非常的大了。針對于同樣的一個視頻質(zhì)量評價的實驗,比如說有40個視頻需要去測試它們的質(zhì)量。如果使用ACR的方法(1到5打分的方法),對于每一個觀測者來說,他10分鐘就能完成這個任務(wù)了。但是如果用這種配對比較法,就需要耗掉351分鐘,所以這基本是一個不可能實現(xiàn)的任務(wù)。
所以針對配對比較法,學(xué)術(shù)界提出了很多加速方法。比如最簡單的就是隨機采樣,就是我們可以隨機的去選擇比較一些對,再隨機的選擇另外一些對不比較。當(dāng)然這里可以有一些random 采樣的一些策略,這是一種最簡單最直接的方法。
第二是基于經(jīng)驗的平衡采樣法, 是我在博士期間提出來的一個方法,被ITU和IEEE標(biāo)準(zhǔn)收錄。它是指每一個視頻它出現(xiàn)在用戶的評測過程中的概率是一致的,不會出現(xiàn)某些視頻永遠(yuǎn)被呈現(xiàn)出來,讓用戶看,而有些視頻就永遠(yuǎn)不被呈現(xiàn)。我們盡量避免這樣的問題,所以這是一個平衡采樣法。
這里有個經(jīng)驗,就是我們盡量集中在質(zhì)量相似的對比實驗上,那對于一些質(zhì)量差異非常大的視頻,我們其實沒有必要花那么多精力在上面。比如一個270p的一個視頻和一個4k視頻,那是顯而易見4K視頻會質(zhì)量好很多,或者針對于比特率我們也可以有類似的判斷。所以我們應(yīng)該把budget放在這樣質(zhì)量相似的pair上。基于這樣的經(jīng)驗,再基于這樣一個平衡性的假設(shè),我們最后可以做到這樣的平衡采樣法。
第三個,從數(shù)學(xué)理論上來講,是接近于最優(yōu)化的一個方法,就是基于信息量的主動采樣法。這個是我2018年發(fā)表在NeurIPS上的工作。上面這個圖EIG(Expected Information Gain)就是每個視頻對期望的信息增益,橫坐標(biāo)代表的是兩個視頻之間分?jǐn)?shù)差,y坐標(biāo)代表是兩個視頻之間它的分?jǐn)?shù)差的方差。那這里我們給大家一個概念,就是對于兩個視頻,如果質(zhì)量越相近,那在我們給它打分的過程中,這兩個視頻結(jié)果產(chǎn)生的信息增益是最多的。那我們其實就是需要把這些能夠產(chǎn)生最大信息增益的pair挑出來去進(jìn)行質(zhì)量評價,最終可以達(dá)到最優(yōu)化budget的目的。
所以,現(xiàn)在主觀實驗方法設(shè)計好了,主觀的實驗的流程也加速了。當(dāng)我們拿到這些實驗數(shù)據(jù)的時候,接下來需要思考的是,如何濾除outlier,如何recover ground truth的問題。非常常見的是在實驗過程中,一定會有人不小心按錯按鈕。比如說在配對比較的時候,他本來想選左邊,結(jié)果他按了個右,或者是把問題理解錯了,把1分和5分他搞反了,以為1是最好5是最差。也有一些人在打分的時候可能會特別的寬容,覺得每一個視頻質(zhì)量都非常好,所以打分比較偏向于永遠(yuǎn)打4分或者是5分。但有一些人相反,他覺得你給我的這些視頻太差了,他跟我過去比看到的那些4k、8k視頻簡直沒有辦法比,所有的都在他接受的閾值之下,所以他都是打1分或者2分。每個人都有自己的判斷標(biāo)準(zhǔn),而每個人在打分過程中又可能會有不同的情況發(fā)生。那我們應(yīng)該怎么樣去處理這個數(shù)據(jù),得到一個相對準(zhǔn)確的,接近于我們假設(shè)的一個視覺感知ground truth的情況呢?最直接的方法就是增大觀測數(shù)據(jù)量,通過堆人的方式。但是本來視頻質(zhì)量的主觀實驗已經(jīng)是一個耗時的過程,又通過增加人的方式它就更加耗時。所以就會又耗時,又耗錢,又耗精力,為了完成這么一個濾除outlier的過程。這對于大部分人來說都會比較困難。那怎么辦?
我們會采用一些數(shù)據(jù)分析模型。比如假設(shè)所有用戶針對于某一個視頻進(jìn)行打分之后,可以看到這個分?jǐn)?shù)類似于一個高斯分布。它的均值其實是由一個ground truth和這個當(dāng)前用戶他自己的bias來決定的。這個方差其實是由當(dāng)前用戶他在打分過程中的不確定性,以及這個視頻本身內(nèi)容的ambiguity共同來決定的。
什么是用戶的bias?可以理解成有的用戶總是打分偏高,或者是有些用戶打分總是偏低,那么他會在這個針對于ground truth的分?jǐn)?shù)上會有上下偏差,所以每個人都有他自己的偏差。那穩(wěn)定性是什么?就是有些用戶,你給他多少次相同的視頻,他給出來的分基本是一致的。但有些用戶就很不穩(wěn)定,就是即便無數(shù)次的重復(fù)同一個視頻,在不同的情況下給他重復(fù)同一個視頻,讓他去進(jìn)行評判,他都很可能給出非常不同的分?jǐn)?shù),那么他的這個inconsistency 值相對來說要高一些。
對于視頻內(nèi)容來說,它只影響分?jǐn)?shù)的方差,但不影響ground truth的分?jǐn)?shù)。有些內(nèi)容它對所有人來說,都是非常容易打分的,比如如果我給你一個純黑色的界面,讓你說它的目前清晰度如何,那它清晰度基本是完美的。所以這個內(nèi)容是沒有ambiguity的。
但是如果是比較奇怪的一些內(nèi)容,有的人就會說這個內(nèi)容,我覺得它質(zhì)量非常好,但有些人會覺得這種質(zhì)量非常糟。所以這種內(nèi)容,它就會引起極大的用戶意見不統(tǒng)一。所以它的ambiguity就會非常高。
針對于這樣的假設(shè),我們會提出這樣高斯模型,然后再利用一些算法,把這個參數(shù)預(yù)估出來,就可以最終恢復(fù)或者recover我們想要的ground truth和每一個用戶不同的parameter ,以及我們視頻內(nèi)容的parameter 。
第二個模型是針對于pair comparison的。它還有一個特點就是每一個視頻分?jǐn)?shù)它依舊是服從高斯分布的。但是在pair comparison過程當(dāng)中,每一個人他的bias和content effect不存在了,所以會減少一些特征。那最終我們可以使用一些模型,比如Thurstone模型或者Bradley-Terry模型,針對于這個分布最終可以獲得一些參數(shù),而這個參數(shù)最終可以幫我們?nèi)ス烙嫵龌谒幸曨l對兒結(jié)果的情況下,每一個視頻其實它真實的一個質(zhì)量是什么樣的。
第三個模型相對來說會不太一樣,它認(rèn)為感知質(zhì)量不是一個高斯分布。是我發(fā)表在2020年ACM MM上的一個工作。因為我們平時打分12345,它是一個離散的值,并不呈現(xiàn)一個高斯態(tài),而且它是個截斷的狀態(tài)。所以我們認(rèn)為它呈現(xiàn)的是一個ordinal categorical distribution。那在這種ground truth的假想下,我們認(rèn)為每個觀測者他都含有一個隱變量,就是他有時候會進(jìn)入一個正常打分模式,但有時候會進(jìn)入一個隨機打分模式。然后用一個p 值去描述他的可靠性,也就是他從0和1之間轉(zhuǎn)變的一個概率,最終獲得這樣一個模型去最終預(yù)測ground truth應(yīng)該是什么樣,以及每一個人他的p值應(yīng)該是什么樣的,那這是一個區(qū)別于之前的一個比較特別的模型。
最后給大家看一下我們的主觀評測平臺,這里展示的只是一個非常簡單的1到5打分的測試平臺,你可以看到它顯示的視頻內(nèi)容。我們要求播放器是不可以改變視頻它本身的resolution的。測試視頻的resolution是由實驗設(shè)計者來決定的。比如說你就是想保持它原視頻的分辨率去進(jìn)行觀測,那你就按照原視頻去播。但如果你要是想測不同分辨率視頻他們在1080p的情況下是什么樣的感知質(zhì)量,那你就需要把不同分辨率的視頻全部rescale到1080p,然后統(tǒng)一再在測試平臺給用戶進(jìn)行評測。這個就是我們1到5打分的ACR平臺。
最后給大家快速過一下我們的客觀模型和業(yè)務(wù)的應(yīng)用場景。一共有三個場景。
第一個要給大家介紹的就是圖像和視頻清晰度的評價模型。這是一個基于深度學(xué)習(xí)的無參考質(zhì)量評價模型。比如說在這里我們評價了增強版的《還珠格格》視頻,以及士兵突擊的視頻和大江大河的視頻,它們的客觀質(zhì)量分預(yù)測出來的是符合人眼的主觀感受的,所以這個質(zhì)量分也應(yīng)用在我們的業(yè)務(wù)場景中,幫助算法,排序、分發(fā),進(jìn)行前期的一些處理、篩選。
那第二個場景就是廣告場景。在這個場景中,我們用了兩個模型,一個是視覺注意模型,一個是觀看體驗?zāi)P汀K罱K呈現(xiàn)的效果是能讓廣告受人關(guān)注,但又不打擾觀看體驗。
像上面這兩個是不好的廣告例子,比如左邊這個有硬生生的一個壓屏條廣告,而右邊的植入廣告是在用戶看不到的地方。
我們會進(jìn)行一些優(yōu)化的動作,比如增加一些光影特效,這樣可以增加一些用戶的注意力,但同時并不打擾整個內(nèi)容觀看。右邊是通過一點點的光影特效,會把這個區(qū)域,從之前的非視覺注意區(qū)域,變成一個注意區(qū)。
第三個業(yè)務(wù)場景,就是《這!就是街舞3》的這次自由視點視頻算法迭代升級。比如最開始,算法在重建的時候是有一些問題的。對于某些遮擋情況,當(dāng)我們生成了虛擬視角的時候,它是有一些黑洞存在的,所以在這種情況下,質(zhì)量分會相對偏低。但是經(jīng)過一些算法的迭代和優(yōu)化,我們就會把由遮擋引起的重建的問題給解決掉,那么之前存在黑洞的水面就會變得非常平滑。用戶在左右觀看的時候就不會出現(xiàn)那種黑洞閃爍的問題,這個質(zhì)量分也會高一些,告訴我們這個重建算法是比之前的版本要好的。
嘉賓介紹
李靜,博士,阿里巴巴文娛集團資深算法專家,阿里巴巴大文娛摩酷實驗室視頻體驗與質(zhì)量團隊負(fù)責(zé)人。2013年獲法國南特大學(xué)計算機博士學(xué)位,2014年新加坡南洋理工大學(xué)訪問學(xué)者,2014-2016任法國南特大學(xué)助理教授,2014-2019任法國國家科學(xué)院IPI/LS2N實驗室研究員。2019年加入阿里巴巴。研究方向包括生理心理學(xué)實驗方法論,多媒體視覺體驗質(zhì)量評價,3D視覺,機器學(xué)習(xí)等。國際質(zhì)量專家組VQEG成員,國際標(biāo)準(zhǔn)組織IEEE P3333.1成員,歐盟Qualinet成員,AVS視頻標(biāo)準(zhǔn)質(zhì)量評價組成員。ACMMM 2020 QoEVMA workshop組織者。參與制定多個IEEE以及ITU國際標(biāo)準(zhǔn),擔(dān)任多個國際期刊與會議評審。
總結(jié)
以上是生活随笔為你收集整理的详解优酷视频质量评价体系的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 家乐福卡面值看哪一个数字
- 下一篇: 全国计算机等级考试东营,东营计算机等级考