技术系列课回顾 | 直播点播窄带高清之 JND 感知编码技术
?
?
導(dǎo)讀:本文整理自網(wǎng)易資深開(kāi)發(fā)工程師程玲在線上直播 MCtalk Live#3:直播點(diǎn)播窄帶高清之 JND 感知編碼技術(shù)內(nèi)容分享,文末也可查看直播回顧視頻。
文|程玲 網(wǎng)易云信資深音視頻引擎開(kāi)發(fā)工程師
直播點(diǎn)播已經(jīng)與日常生活息息相關(guān),這個(gè)過(guò)程中大家最關(guān)注的是什么,是更低的播放成本?還是更高的畫(huà)質(zhì)?這就涉及到了窄帶高清技術(shù),對(duì)于視頻窄帶高清技術(shù),智能視頻編碼是其中最基礎(chǔ)也是最重要的一個(gè)部分。
?
窄帶高清技術(shù)概述
窄帶高清技術(shù)實(shí)際上是一套以人眼的主觀感受最優(yōu)為基準(zhǔn)的視頻編碼技術(shù),代表的是一種成本與體驗(yàn)最合理配置、最佳性價(jià)比的視頻服務(wù)理念。窄帶是指節(jié)省不必要的比特,高清是把比特分配到更能產(chǎn)生價(jià)值的地方,從而實(shí)現(xiàn)在同樣帶寬條件下收獲更加清晰優(yōu)質(zhì)的畫(huà)質(zhì)。
在疫情的影響下,直播從傳統(tǒng)秀場(chǎng)滲透到各個(gè)領(lǐng)域,全民直播時(shí)代到來(lái),對(duì)窄帶高清技術(shù)的需求也越來(lái)越大。本文將首先介紹下業(yè)界一些比較成熟的窄帶高清方案,再分享網(wǎng)易云信在窄帶高清技術(shù)上的探索實(shí)踐,最后再分享其關(guān)鍵技術(shù)點(diǎn) JND 感知編碼技術(shù)。
?
業(yè)界窄帶高清方案簡(jiǎn)介
業(yè)界已經(jīng)有比較成熟的窄帶高清技術(shù)的應(yīng)用,下面將介紹一些典型的技術(shù)方案。
?淘寶直播?
淘寶直播是采用 HEVC 編碼實(shí)現(xiàn)了 720p/25fps,800kbps 的壓縮,且 PSNR>43db/VMAF>90,其視頻窄帶高清技術(shù)主要應(yīng)用有三個(gè)方面:
-
音視頻增強(qiáng),采用基于 AI 的圖像增強(qiáng)、美顏和語(yǔ)音增強(qiáng)來(lái)提高生產(chǎn)質(zhì)量
-
感知處理,采用信源信道聯(lián)合自適應(yīng)編碼,包括 ROI 檢測(cè)、根據(jù)場(chǎng)景分類設(shè)置不同的編碼參數(shù)、智能碼控等
-
S265 編碼器,S265 編碼器是業(yè)界領(lǐng)先的 HEVC 編碼器
?阿里窄帶高清?
阿里的窄帶高清方案是從人眼視覺(jué)模型出發(fā),將編碼器的優(yōu)化目標(biāo)從經(jīng)典的“保真度最高”調(diào)整為“主觀體驗(yàn)最好”。憑借獨(dú)有算法,弱化人眼易忽視的區(qū)域,強(qiáng)化人眼關(guān)注的細(xì)節(jié),修復(fù)人眼厭惡的內(nèi)容,突破當(dāng)代視頻編碼器的能力上限,在節(jié)省碼率的同時(shí),也能提供更加清晰的觀看體驗(yàn)。
?騰訊極速高清?
騰訊極速高清是采用視頻智能類(視頻分成游戲、秀場(chǎng)、體育、戶外、動(dòng)漫、美食、影視劇等十幾個(gè)大類幾十個(gè)小類場(chǎng)景)、智能編碼參數(shù)(不同場(chǎng)景配置不同最優(yōu)編碼參數(shù))、前置處理 (銳化、軟模糊、去塊、降噪)等技術(shù)盡可能解決轉(zhuǎn)碼失真、低分辨率模糊、鏡頭抖動(dòng)、噪聲大、低碼率鋸齒塊等轉(zhuǎn)碼中存在的問(wèn)題,應(yīng)用在斗魚(yú)、企鵝電競(jìng)、CCTV、新英體育等。
?
NE264 窄帶高清技術(shù)
NE264?是網(wǎng)易云信自研的符合 H.264 標(biāo)準(zhǔn)的視頻編碼器,目前已在 RTC、直播點(diǎn)播中應(yīng)用。針對(duì)直播點(diǎn)播,NE264 目標(biāo)是在現(xiàn)有架構(gòu)下實(shí)現(xiàn)更低的帶寬、更高的畫(huà)質(zhì),即 NE264 窄帶高清。
下面我們將簡(jiǎn)單介紹下視頻編碼技術(shù)和根據(jù)人眼視覺(jué)特性提出的視覺(jué)感知編碼技術(shù),在此基礎(chǔ)上提出和實(shí)現(xiàn)了 NE264 窄帶高清技術(shù)。
?視頻編碼?
視頻編碼都是利用數(shù)據(jù)間的冗余來(lái)進(jìn)行壓縮。早期視頻編碼依靠?jī)?yōu)化空域冗余、時(shí)域冗余、頻域冗余等帶來(lái)壓縮效率的提升。從 MPEG-1 發(fā)展到 MPEG-2,碼率節(jié)省約 50%,編碼效率翻倍,復(fù)雜度增長(zhǎng)為 5% 左右。
2003年推出的 H.264 是視頻壓縮協(xié)議的經(jīng)典,在 H.264 推出后,傳統(tǒng)的編碼方式優(yōu)化效率越來(lái)越低。從 H.264(AVC) 到 H.265(HEVC),雖然編碼效率提升了 40%,但其背后復(fù)雜度卻增長(zhǎng)了 5 倍,而從 H.265 到最新的 H.266(VVC) 標(biāo)準(zhǔn),編碼效率不到 40%,但復(fù)雜度增加了 10 倍以上。
隨著編碼標(biāo)準(zhǔn)的演進(jìn),收益越來(lái)越小。隨著技術(shù)的發(fā)展,技術(shù)突破愈發(fā)困難,因此迫切需要一種編碼壓縮的新思路。
?人眼視覺(jué)系統(tǒng)(HVS)?
隨著對(duì)人眼視覺(jué)系統(tǒng)(HVS)生理和心理研究的發(fā)展,我們發(fā)現(xiàn),其實(shí)人腦處理視覺(jué)時(shí)有非常多的信息冗余,利用人眼視覺(jué)特性可以明顯的改善視覺(jué)壓縮效率,這就是人眼感知壓縮的原理。
人眼視覺(jué)系統(tǒng)由眼球、神經(jīng)系統(tǒng)及大腦視覺(jué)中樞三部分構(gòu)成,當(dāng)人眼注視視頻場(chǎng)景時(shí),入射光首先由瞳孔和水晶體調(diào)節(jié)、聚焦,使景物在視網(wǎng)膜上成像,然后由視網(wǎng)膜上的神經(jīng)元將光信號(hào)轉(zhuǎn)化為神經(jīng)信號(hào)并發(fā)送到視皮層,經(jīng)過(guò)視皮層以及腦部其他區(qū)域的進(jìn)一步處理后形成對(duì)視頻場(chǎng)景的感知。
近幾年來(lái),在視覺(jué)心理學(xué)、生理學(xué)的指導(dǎo)下,通過(guò)對(duì)人眼的某些視覺(jué)現(xiàn)象的觀察和研究,人們發(fā)現(xiàn)了 HVS 的很多特性。目前在視覺(jué)感知編碼中,一般應(yīng)用到的 HVS 特性有視覺(jué)注意、視覺(jué)掩蓋、視覺(jué)敏感、視覺(jué)統(tǒng)計(jì)學(xué)習(xí)機(jī)制等,HVS 的一些特性如下圖:
視覺(jué)掩蓋,人眼對(duì)單一視覺(jué)信號(hào)比較容易感知,當(dāng)幾個(gè)視覺(jué)信號(hào)同時(shí)存在時(shí),HVS 會(huì)對(duì)其中一個(gè)或多個(gè)信號(hào)的感知能力下降甚至消失,感知閾值發(fā)生改變,包括:
-
亮度掩蓋:人眼對(duì)較亮或者較暗區(qū)域感知更弱
-
紋理掩蓋:人眼對(duì)非均勻區(qū)域的可見(jiàn)性閾值為 明顯高于均勻區(qū)域
-
Pattern 掩蓋:人眼對(duì)規(guī)則物體的分辨力明顯會(huì)高于不規(guī)則的物體
-
運(yùn)動(dòng)掩蓋:人眼對(duì)劇烈運(yùn)動(dòng)的場(chǎng)景分辨力會(huì)明顯下降
視覺(jué)注意,即當(dāng)人眼注意視頻場(chǎng)景時(shí),人眼會(huì)快速將注意力集中在感興趣的視頻內(nèi)容或者對(duì)象上。包括兩種模式:
-
由外部激勵(lì)驅(qū)動(dòng)的自底向上(Bottom-up)的處理過(guò)程。主要跟圖像內(nèi)容的顯著性相關(guān),與周圍區(qū)域具有較大差異性的目標(biāo)容易吸引觀察者的視覺(jué)關(guān)注。
-
由任務(wù)驅(qū)動(dòng)的自上而下(Top-down)的處理過(guò)程。意識(shí)支配、依賴于特定的命令,由人的“認(rèn)知因素”決定, 比如知識(shí)、預(yù)期和當(dāng)前的目標(biāo),如監(jiān)控場(chǎng)景下的人體更容易引起注意。
?視覺(jué)感知編碼?
視覺(jué)感知編碼的目的是利用已知的 HVS 特性,最大限度消除人眼無(wú)法感知的信息,用更少的比特資源提供視覺(jué)感知質(zhì)量更理想的視頻圖像。為此,研究人員提出了大量的視覺(jué)感知編碼方法。根據(jù)編碼方法所利用的 HVS 特性不同,研究和應(yīng)用比較多的是基于視覺(jué)掩蓋的編碼方法和基于視覺(jué)注意的編碼方法。
關(guān)于視覺(jué)掩蓋的編碼方法,人眼多通道模型的特點(diǎn),一個(gè)激勵(lì)的存在將導(dǎo)致另一個(gè)激勵(lì)探測(cè)閾值的改變,致使人眼對(duì)其中一種或多種激勵(lì)的感知能力下降或消失,這就為消除視覺(jué)冗余提供了可能。目前,基于視覺(jué)掩蓋的編碼方法主要有:基于 JND 模型的編碼方法和基于 SSIM、VMAF 等主觀評(píng)價(jià)機(jī)制的編碼方法。其中 JND 模型的編碼方法是人眼視覺(jué)編碼目前廣泛使用的技術(shù),也是我們重點(diǎn)研究的技術(shù)。
關(guān)于視覺(jué)注意的編碼方法,根據(jù)是否考慮 HVS 的中央凹特性,基于視覺(jué)注意的編碼方法可以分為兩類,基于感興趣區(qū)域的編碼方法和基于人眼顯著性檢測(cè)的編碼方法。
-
基于感興趣區(qū)域(ROI)的編碼方法的基本思想是在視頻編碼前,對(duì)輸入的視頻場(chǎng)景進(jìn)行視覺(jué)感知分析確定感興趣區(qū)域。在編碼過(guò)程中通過(guò)調(diào)整編碼參數(shù),比如 QP,來(lái)分別控制感興趣區(qū)域和非感興趣區(qū)域的失真程度,進(jìn)而改善感興趣區(qū)域的編碼質(zhì)量。該技術(shù)提出已有多年,實(shí)際在使用時(shí)提升比較有限。
-
基于人眼顯著性檢測(cè)(Visual saliency detection)的編碼方法指通過(guò)根據(jù)人的視覺(jué)特點(diǎn),提取圖像中的顯著區(qū)域(即人類感興趣的區(qū)域)。面對(duì)一個(gè)場(chǎng)景時(shí),人類自動(dòng)地對(duì)感興趣區(qū)域進(jìn)行處理而選擇性地忽略不感興趣區(qū)域,這些人們感興趣區(qū)域被稱之為顯著性區(qū)域。該技術(shù)是人眼感知編碼中比較常見(jiàn)的技術(shù),通常和 JND 等技術(shù)配合達(dá)到更好的壓縮效果,也是我們要優(yōu)先研究的技術(shù)。
?NE264 技術(shù)?
目前業(yè)界窄帶高清技術(shù)已相對(duì)比較成熟,結(jié)合 NE264 編碼特性以及想要達(dá)成的目標(biāo),我們的窄帶高清技術(shù)主要分為三大部分:
-
視頻增強(qiáng)前處理技術(shù):紋理增強(qiáng),提升主觀體驗(yàn)
-
顯著性檢測(cè)技術(shù):基于人眼視覺(jué)注意特性,區(qū)分顯著性和非顯著性區(qū)域,用于編碼,提高壓縮率
-
JND 感知編碼技術(shù):基于人眼視覺(jué)掩蓋特性,作用于編碼,提高壓縮率
具體的流程我們可以結(jié)合下圖看一下:對(duì)于輸入視頻,我們可以通過(guò)機(jī)器學(xué)習(xí)分析視頻內(nèi)容特性,然后進(jìn)行視頻增強(qiáng)前處理,以提升畫(huà)質(zhì),再進(jìn)行顯著性檢測(cè)區(qū)分顯著性和非顯著性區(qū)域,傳遞給 NE264 編碼器,NE264 編碼計(jì)算 JND 系數(shù),再結(jié)合顯著性檢測(cè)結(jié)果,作用于編碼,最終輸出顯示。
下圖為增強(qiáng)前處理的對(duì)比效果圖,其中左圖為原圖,右圖為增強(qiáng)處理后的效果,可以發(fā)現(xiàn)經(jīng)過(guò)視頻增強(qiáng)處理后的圖像主觀得到明顯提升。
視頻增強(qiáng)效果
下圖為顯著性檢測(cè)效果圖,其中上面彩色圖為原圖,下面黑白圖為顯著性檢測(cè)效果圖,為 0-255 的值,越亮說(shuō)明越是顯著性區(qū)域。
顯著性檢測(cè)效果
?
JND 感知編碼技術(shù)
下面我們就來(lái)看看上面提到的關(guān)鍵技術(shù):JND 感知編碼技術(shù)。
JND(Just Noticeable Distortion)為最小可覺(jué)察誤差,用來(lái)度量人眼對(duì)圖像中不同區(qū)域失真的敏感性,多用于基于視覺(jué)特性的圖像/視頻編碼、數(shù)字水印、圖像質(zhì)量評(píng)價(jià)。目前已有多個(gè) JND 模型被提出,主要分為兩類,基于像素域的 JND 模型和基于 DCT 域的 JND 模型。
-
基于像素域的 JND 模型能在像素域上更為直觀的給出每一個(gè)像素點(diǎn)的 JND 閾值,不需要考慮頻域特性,計(jì)算簡(jiǎn)單方便,但精度不高。
-
基于 DCT 域的 JND 模型考慮頻域特性,應(yīng)用更廣,通常包括三部分,亮度自適應(yīng)(Luminance Adaptation, LA)、對(duì)比度掩蔽(Contrast Masking, CM)以及對(duì)比度敏感函數(shù)(Contrast Sensitivity Function, CSF)。我們主要采用的是基于 DCT 域的 JND 感知編碼技術(shù)。JND 計(jì)算公式如下:
基于 NE264 的 JND 感知編碼如下:對(duì)于輸入的 YUV 圖像,我們首先計(jì)算亮度敏感度、紋理敏感度和對(duì)比敏感度,從而得到 JND 系數(shù),然后作用于 DCT 域,改變?cè)械??DCT系數(shù),然后進(jìn)行編碼,輸出碼流。
?
總結(jié)
本文主要介紹了 NE264 窄帶高清技術(shù)和 JND 感知編碼技術(shù),對(duì)于直播點(diǎn)播應(yīng)用而言,如何在保證高清畫(huà)質(zhì)的基礎(chǔ)上盡可能的減少帶寬始終是追求的目標(biāo),視頻編碼是其中至關(guān)重要的環(huán)節(jié),不管是傳統(tǒng)編碼技術(shù),還是結(jié)合智能編碼技術(shù),我們都將持續(xù)努力,帶來(lái)更低時(shí)延、更高畫(huà)質(zhì)的優(yōu)質(zhì)視頻體驗(yàn)。
以上就是本次分享的全部?jī)?nèi)容,點(diǎn)擊【閱讀原文】即可查看本次分享的視頻回顧。
?作者介紹?
程玲,網(wǎng)易云信資深音視頻算法工程師,目前在網(wǎng)易云信主要從事視頻編碼算法研究相關(guān)的工作,對(duì)視頻質(zhì)量?jī)?yōu)化、碼率控制算法有比較豐富的經(jīng)驗(yàn)。
?延伸閱讀?
-
技術(shù)系列課回顧 | 淺談 Serverless 開(kāi)發(fā)和應(yīng)用
-
云信技術(shù)系列課 | RTC 系統(tǒng)音頻弱網(wǎng)對(duì)抗技術(shù)發(fā)展與實(shí)踐
-
云信技術(shù)系列課回顧視頻|視頻直播關(guān)鍵技術(shù)和趨勢(shì)
總結(jié)
以上是生活随笔為你收集整理的技术系列课回顾 | 直播点播窄带高清之 JND 感知编码技术的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 技术系列课回顾 | 浅谈 Serverl
- 下一篇: 娱乐社交,玩票大的!网易云信“2021融