當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

2021 年音视频技术与发展

發布時間：2023/11/28 生活经验 63 豆豆

生活随笔收集整理的這篇文章主要介紹了 2021 年音视频技术与发展小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2021 年音視頻技術與發展
2021 年，音視頻技術的應用場景已隨處可見，從游戲場景「吃雞」、電商場景直播連麥、教育場景授課答題，再到金融場景銀行視頻開戶等都有身影。那么，回望今年音視頻領域到底有哪些突破性技術表現？未來，音視頻賽道在流暢性、海量并發等存在諸多技術痛點的地方是否會迎來拐點呢？能否從各種角度和領域來盤點一下。
2021 年，音視頻技術的應用場景已隨處可見，從游戲場景「吃雞」、電商場景直播連麥、教育場景授課答題，再到金融場景銀行視頻開戶等都有身影。那么，回望今年音視頻領域到底有哪些突破性技術表現？未來，音視頻賽道在流暢性、海量并發等存在諸多技術痛點的地方是否會迎來拐點呢？能否從各種角度和領域來盤點一下。

總體來看，目前，全球主流的視頻壓縮技術有H.26x、AVS系列、AV1三大類。上圖展示了視頻編碼標準的發展歷程。其中，AVS是中國自主制訂的數字音視頻編解碼標準，在國內市場有很大的發展潛力。另外，相較于H.26x系列高昂的專利費和復雜的專利政策，免費開源的AV1被認為將會得到更為廣泛的應用。
二、視頻編解碼器—應該怎么壓縮視頻？
2.1 實現視頻壓縮的基礎——視頻冗余
在最開始有說到，由攝像器材捕捉的原始視頻流經數字化后，數據量非常龐大，對視頻信號的存儲、傳輸與處理都帶來了極大的挑戰。因此，需要對原始的數字視頻信號進行壓縮編碼。根據香農信息論，自然界的信息普遍存在大量的冗余，而對視頻信號來說，會體現在比如時間冗余、空間冗余、視覺冗余、編碼冗余等等方面。視頻存在信息冗余，也是實現視頻編碼壓縮數據量的基礎。
時間冗余：
時間冗余指的是在時間上重復的信息，在視頻中的表現就是時間上相鄰幀之間的圖像很相似，造成了冗余。一般，每秒30幀的話，視頻中兩個相鄰幀的圖像間隔是30毫秒多一點，變化很微小。

比如，上面兩幅圖像就是從一段視頻序列中截取出的相鄰兩幀圖像，不論是主體內容還是具體結構都非常相似，因此包含了許多的時間上的冗余信息。
空間冗余：
空間冗余是指一幀圖像內相鄰像素、結構間所具有的相關性。與時間冗余不同，空間冗余在視頻信號中的表現為同一幀圖像中很多空間區域所具有的相互關聯性。

比如在上面這一張風景圖中被紅框圈起來的幾個部分，不論是框內還是框周圍，色彩與圖像內容都非常近似。
視覺冗余：
覺冗余與人類視覺系統的特點相關，人類視覺系統對于圖像的變化，并不是都能感知的。例如，對于圖像的編碼和解碼處理時，由于壓縮階段引入了噪聲而使圖像發生了一些變化，如果這些變化不能為視覺所感知，則仍認為圖像足夠好，這類冗余稱為視覺冗余。
通常情況下，人類視覺系統對亮度變化敏感，而對色度的變化相對不敏感；在高亮度區，人眼對亮度變化敏感度下降。對物體邊緣敏感，內部區域相對不敏感；對整體結構敏感，而對內部細節相對不敏感。
編碼冗余：
要了解編碼冗余，首先需要了解一些信息論的知識點。在信息論中，信息熵指的是數據所攜帶的信息量，這個信息量的單位通常用bit比特來表示。簡單理解，某段數據信息熵就是對該數據進行無失真編碼所得平均碼長的下限，但這個下限很難達到。
因此，表達某一信息所需要的比特數往往比理論上表示該信息所需要的最少比特數要大，則之間的差距就是信息熵冗余，也被稱為編碼冗余。
2.2 混合編碼框架
如果說以上介紹的冗余，是能夠實現視頻壓縮的基礎，那么，要以怎么樣的方法才能把冗余去除？到目前為止，盡管世界上有著各種不同的視頻編碼標準，但大體上都是基于一個通用的框架——混合編碼框架。經典的混合編碼框架如下圖所示：

整個編碼框架被大致分為了三個部分：預測編碼、變換編碼與熵編碼。這幾種編碼手段分別對應了不同類型信息冗余的壓縮需求：

預測編碼（包含幀內與幀間預測）：幀內預測可以壓縮空間冗余；幀間預測可以壓縮時間冗余；
變換編碼（包含變換與量化）：變換可以將圖像從空間域變換到變換域；量化可以壓縮視覺冗余；
熵編碼：壓縮編碼冗余；
2.2.1 預測編碼
首先來了解一下預測編碼，這種編碼方式利用了圖像中相鄰像素的時間或空間相關性，用已編碼的像素對當前正在編碼的像素進行預測，然后對預測值與真實值的差——預測殘差進行編碼和傳輸。真實信號、預測信號與預測殘差間的關系可以參考如下的例子：
真實信號序列：55, 69, 78, 67, 70, 59, 63, 64, 72, 60
預測信號序列：66, 66, 66, 66, 66, 66, 66, 66, 66, 66
預測殘差序列：-11, 3, 12, 1, 4, -7, -3, -4, 6, -5
從上面這個例子可以看出，如果通過預測編碼，對預測殘差序列進行編碼和傳輸，可以顯著降低信號的數據量。視頻編碼中所使用的預測編碼基本原理框圖如下圖所示：

預測編碼主要包括幀內預測和幀間預測，分別用于壓縮用于上文提到的空間冗余和時間冗余。
正如前文空間冗余部分所述，視頻每一幀的圖像中，總有許多區域是相互關聯的。也就是說，視頻圖像中，相鄰像素之間的變化一般都很小，存在著極強的空間相關性。因此，要編碼某一片區域中的像素值，可以使用周圍已編碼區域的像素值對這片區域中的像素值進行預測，然后獲取預測殘差進行編碼。幀內預測的基本過程如下所示：

上圖中綠色區域是已經編碼的像素值，紅色問號區域代表將要被編碼的區域。

如果使用垂直方向上的已編碼像素值對待編碼區域像素值進行預測，就可以獲得待編碼區域的預測信號，圖中箭頭方向代表預測方向。

通過獲得的預測像素值，與原有的實際像素值做差，就獲得了幀內預測殘差。顯而易見，預測殘差矩陣的數據量更小，原本需要用8bit存儲的數據，經過預測后，預測殘差可能只需要2bit。
幀內預測在一定程度上減少了空間冗余，而在幀間預測中，主要是對原始視頻信號中的時間冗余進行壓縮。通常來說，視頻信號相鄰幀中包含的內容非常相似，最大的差異主要來自于物體在空間中的運動。因此，幀內預測中使用了運動補償對視頻中的運動特性進行編碼。用兩張圖來簡單的解釋這個過程。

上圖代表了視頻中正在進行幀間編碼的一幀，其中紅色編碼塊內包含一個運動物體。

運動補償首先在參考幀中尋找能夠最佳匹配紅色編碼塊的粉色匹配塊，并計算二者間的運動矢量（Motion Vector, MV）。在結束該幀編碼后，只需要傳輸幀間預測殘差和運動矢量信息，這大大縮減了視頻信號中的時間冗余信息。
2.2.2 變換與量化
上面提到的預測編碼大多是在空間域與時間域內進行的，而變換編碼指將空間域中描述的圖像，經過某種變換，變換為變換域（通常指的是DCT域），從而達到改變數據分布的作用。接下來，給出了對圖像像數值進行DCT變換的一個實際例子：

上圖中，左圖是原圖每個像素所對應亮度分量的實際值，右圖是該亮度圖像進行DCT變換所獲得的系數矩陣。可以看到，經過DCT變換，圖像大部分能量都集中在頻域中的直流分量與低頻分量上（左上角部分），高頻分量部分的能量卻很少，基本接近于0或等于0。
經過上一步從從空域變換到頻域后，得到了一個新的矩陣。對于變換后得到的數據，再通過量化進行進一步的壓縮處理，把具有連續幅度值的輸入信號，轉換到只具有有限個幅度值的輸出信號，可以大大減小數據量。
2.2.3 熵編碼
在上面提到，在編碼器的整個編碼流程中，各種預測編碼和變換編碼都可以看成是通過解除空間或時間上的相關性，將原始信號轉換成另一種形式(預測誤差或變換系數)來表達。那么，在這種新形式下,信源可以近似認為是無記憶的,即各樣值之間已沒有相關性。再經過量化操作后，信源只產生有限個數的符號,因此，經過量化后的信號可近似看成是一個離散無記憶信源。對于離散無記憶信源，只要各事件出現的概率不相等,該信源就仍然有冗余存在，還有進一步進行數據壓縮的可能性，這就是在熵編碼中所考慮的問題。
三、編碼技術大戰——2021年MSU世界視頻編碼器大賽
在當前，每個視頻所包含的信息量、數據量都在大幅的增加。一部時長兩個小時未經壓縮的分辨率為1080p，幀率為60Hz的YUV視頻，大約會占用192010801.56060*120 Byte，約134GByte的存儲空間。面對如此大的數據量，為了在傳輸過程中不造成過大的帶寬占用，并且要盡量提供與網速一致的交互體驗，就需要依靠高效的視頻編碼。所以，視頻編碼的研究和標準制定是推動業內的發展的基礎。
由于視頻應用相關產業的迅速發展，視頻編碼技術作為視頻應用背后的關鍵支撐，也受到各大廠商的重點關注，提供視頻內容的科技公司也紛紛著力于研發自己的視頻編碼器，視頻編碼器的“技術大戰”，也一直擁有極高的關注度。作為世界頂級視頻編碼器大賽，MSU編碼器大賽是由莫斯科國立大學（Moscow State University）舉辦的，迄今為止已連續舉辦十六屆，是視頻編碼器領域極具權威的賽事。2021年MSU世界視頻編碼器大賽的競爭非常的激烈，參賽團隊來自世界TOP級別的科技公司包括騰訊等各大互聯網公司等。
2021年10月30日，權威賽事2021 MSU世界視頻編碼器大賽成績公布。在H.265賽道，騰訊研發的Tencent V265編碼器處于行業領先，各項指標排名全部第一；在AV1賽道，騰訊推出的VAV1自研編碼器也實現全部指標第一；騰訊自研的Tencent266編碼器也在競爭激烈的高清離線賽道中奪得兩項第一名的成績。

上圖是MSU大賽中全高清客觀指評價[4]和主觀質量評價[5]的結果。可以看到，騰訊公司的TencentV265編碼器，不論在客觀質量壓縮，還是在主觀質量壓縮，在快速檔賽道（Fast, 30fps）中都取得了所有評判標準中第一的突出成績。

1）上圖是MSU世界編碼器大賽中不同視頻編碼器使用數量的比較。可以看出，視頻編碼標準從H.26x系列的一家獨大，逐漸轉變為到AV1、HEVC(H.265)、VVC(H.266)三足鼎立的競爭局面。
2）視頻內容的分辨率越來越高，數據量越來越龐大。2021年的視頻編碼主流分辨率從720P, 1080P的高清圖像（H.264）已經升級到2K, 4K, 8K超高清圖像編碼（HEVC, VVC, AV1）；
3）由于多媒體內容中視頻圖像越來越大，幀率越來越高。支持并行編碼以及便于實現硬件加速編解碼的視頻編碼器會越來越流行。
可以從技術趨勢中發現，開源的編碼標準、面向超高清視頻的編碼標準以及硬件加速編碼愈發流行，而這三者，都是由越來越豐富的視頻應用、越來越高清的視頻催生的。正如“技術永遠和需求掛鉤，技術驅動，需求拉動，同時用市場加速，這是這個時代的核心特征”。在視頻編碼領域，亦是如此。編碼技術的發展，也往往由新的視頻應用需求驅動。迄今為止，視頻應用已經滲透到生活的各個領域，也催生了視頻編碼新的技術需求。比如，從2019爆發的新冠疫情至今，國內外的很多會議都由線下轉至線上舉行，許多行業對視頻會議都有強烈的需求，視頻會議需要進行低延遲、高質量的視頻傳輸，同時，屏幕共享功能也要求視頻編碼器能對屏幕內容進行高效高質量的編碼。
與視頻會議相似的還有超高清視頻的傳輸。隨著硬件設備的發展和帶寬的提高，用戶對視頻質量，尤其是分辨率的要求也隨之提高。因此，如何提高壓縮效率，降低帶寬消耗的同時又能最大化的提高視頻的質量，是視頻編碼技術一直以來的追求，也將持續作為未來研究的重要課題。
目前，發展火熱的AR/VR視頻，即增強現實/虛擬現實視頻，由于VR視頻內容的特殊性和網絡帶寬的限制，目前的視頻編碼標準無法滿足VR視頻的壓縮需求。目前，業界對AR/VR視頻的設備和應用呼聲極高，針對AR/VR內容的視頻編碼標準也勢必在未來有更好的發展。
參考
^高文，趙德斌，馬思偉. 數字視頻編碼技術原理（第二版）[M]. 北京: 科學出版社, 2018.
^朱秀昌, 劉峰, 胡棟. H.265/HEVC視頻編碼新標準及其擴展[M]. 北京: 電子工業出版社, 2016
^蔡安妮. 多媒體通信技術基礎（第4版）[M]. 北京: 電子工業出版社, 2017.

消除馬賽克從此不是夢

如上圖所示，照片的劃痕被篩選出來進行了單獨的修復。

對噪點和模糊進行優化。

模型還對人臉進行了加強優化。這里是通過progressive generator 來細化面部區域，最終得到一張清晰的面部輪廓。

修復這些圖片，Real-ESRGAN 也可以修復動漫視頻。這個模型其實還是基于ESRGAN模型做出的針對低分辨率的圖片及視頻的優化，重點側重于實用性。上圖是整個模型的基本運行原理。

視頻、音頻、文字、文件的實時通訊。理論上來說這個框架可以支持到各種場合。
參考鏈接：
https://www.zhihu.com/question/508523690/answer/2293221093

總結

以上是生活随笔為你收集整理的2021 年音视频技术与发展的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。