當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

深入讲解音视频编码原理，H264码流详解——手写H264编码器

發布時間：2023/12/29 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了深入讲解音视频编码原理，H264码流详解——手写H264编码器小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

音視頻高手課08-H264 I幀 P幀 B幀及手寫H264編碼器

1 三種幀的說明

1、I 幀：幀內編碼幀，幀表示關鍵幀，你可以理解為這一幀畫面的完整保留；解碼時只需要本幀數據就可以完成（因為包含完整畫面）

I 幀的特點：

a. 它是一個全幀壓縮編碼幀，它將全幀圖像信息進行JPEG壓縮編碼及傳輸
b. 解碼時僅用I 幀的數據就可重構完整圖像
c. I 幀描述了圖像背景和運動主體的詳情
d. I 幀不需要參考其他畫面而生成
e. I 幀是P幀和B幀的參考幀（其質量直接影響到同組中以后各幀的質量）
f. I 幀不需要考慮運動矢量
g. I 幀所占數據的信息量比較大

、P幀：前向預測編碼幀。P幀表示的是這一幀跟之前的一個關鍵幀（或P幀）的差別，解碼時需要之前緩存的畫面疊加上本幀定義的差別，生成最終畫面。（也就是差別幀，P幀沒有完整畫面數據，只有與前一幀的畫面差別的數據）

? P幀的預測與重構：P幀是以 I 幀為參考幀，在 I 幀中找出P幀“某點”的預測值和運動矢量，取預測差值和運動矢量一起傳送。在接收端根據運行矢量從 I 幀找出P幀“某點”的預測值并與差值相加以得到P幀“某點”樣值，從而可得到完整的P幀。

P幀的特點：

a. P幀是 I 幀后面相隔1~2幀的編碼幀
b. P幀采用運動補償的方法傳送它與前面的I或P幀的差值及運動矢量（預測誤差）
c. 解碼時必須將幀中的預測值與預測誤差求和后才能重構完整的P幀圖像
d. P幀屬于前向預測的幀間編碼。它只參考前面最靠近它的 I 幀或P幀
e. 由于P幀是參考幀，它可能造成解碼錯誤的擴散
f. 由于是差值傳送，P幀的壓縮比較高

3、B幀：雙向預測內插編碼幀。B幀是雙向差別幀，也就是B幀記錄的是本幀與前后幀的差別（具體比較復雜，有4種情況，但我這樣說簡單些），換言之，要解碼B幀。不僅要取得之前的緩存畫面，還要解碼之后的畫面，通過前后畫面的與本幀數據的疊加取得最終的畫面。B幀壓縮率高，但是解碼時CPU會比較累。

B幀的預測與重構

? B幀以前面的 I 或P幀和后面的P幀為參考幀，“找出”B幀“某點”的預測值和兩個運動矢量，并取預測差值和運動矢量傳送。接收端根據運動矢量在兩個參考幀中“找出（算出）”預測值并與差值求和，得到B幀“某點”樣值，從而可得到完整的B幀。

B幀的特點：

a. B幀是由前面的 I 或P幀和后面的P幀進行預測的
b. B幀傳送的是它與前面的 I 或P幀和后面的P幀之間的預測誤差及運動矢量
c. B幀是雙向預測編碼幀
d. B幀壓縮比最高，因為它只反映并參考幀間運動主體的變化情況，預測比較準確
e. B幀不是參考幀，不會造成解碼錯誤的擴散

注：I、B、P幀是根據壓縮算法的需要，是人為定義的，他們都是實實在在的物理幀。一般來說，幀的壓縮率是7（跟JPG差不多）， P幀是20，B幀可以達到50.可見使用B幀能節省大量空間，節省出來的空間可以用來保存多一些幀，這樣在相同碼率下，可以提供更好的畫質。

1.2 壓縮算法的說明

h264的壓縮方法：

1、分組：把幾幀圖像分為一組（GOP，也就是一個序列），為防止運動變化，幀數不宜取多
2、定義幀：將每組內各幀圖像定義為三種類型，即 I 幀、B幀和P幀
3、預測幀：以幀作為基礎幀，以幀預測P幀，再由 I 幀和P幀預測B幀
4、數據傳輸：最后將 I 幀數據與預測的差值信息進行存儲和傳輸

? 幀內（Intraframe）壓縮也稱為空間壓縮（Spatial compression）。當壓縮一幀圖像時，僅考慮本幀的數據而不考慮相鄰幀之間的冗余信息，這實際上與靜態圖像壓縮類似。幀內一般采用有損壓縮算法，由于幀內壓縮是編碼一個完整的圖像，因此可以獨立的解碼、顯示。幀內壓縮一般達不到很高的壓縮，跟編碼jpeg差不多。

? 幀間（Interframe）壓縮的原理是：相鄰幾幀的數據有很大的相關性，或者說前后兩幀信息變化很小的特點，也即連續的視頻及其相鄰幀之間具有冗余信息，根據這一特性，壓縮相鄰幀之間的冗余量就可以進一步提高壓縮量，減少壓縮比。幀間壓縮也稱為時間壓縮，它通過比較時間軸上不同幀之間的數據進行壓縮。幀間壓縮一般是無損的。幀差值（Frame differencing）算法是一種典型的時間壓縮發，它通過比較本幀與相鄰幀之間的差異，僅記錄本幀與其相鄰幀的差值，這樣可以大大減少數據量。

? 順便說下有損（Lossy）壓縮和無損（Lossy less）壓縮。無損壓縮也即壓縮前和解壓縮后的數據完全一致。多數的無損壓縮都采用RLE行程編碼算法。有損壓縮意味著解壓縮后的數據與壓縮前的數據不一致。在壓縮的過程中要丟失一些人眼和耳朵所不敏感的圖像或音頻信息，而且丟失的信息不可恢復。幾乎所有高壓縮的算法都采用有損壓縮，這樣才能達到低數據率的目標。丟失的數據率與壓縮比有關，壓縮比越小，丟失的數據越多，解壓縮后的效果一般越差。此外，某些有損壓縮算法采用多次重復壓縮的方式，這樣還會引起額外的數據丟失。

2 手寫H264編碼器

要徹底理解視頻編碼原理，看書都是虛的，需要實際動手，實現一個簡單的視頻編碼器：

知識準備：基本圖像處理知識，信號的時域和頻域問題，熟練掌握傅立葉正反變換，一維、二維傅立葉變換，以及其變種，dct變換，快速dct變換。

2.1.1 第一步：實現有損圖像壓縮和解壓
參考 JPEG原理，將RGB->YUV，然后Y/U/V看成三張不同的圖片，將其中一張圖片分為 8x8的block進行 dct變換（可以直接進行二維dct變換，或者按一定順序將8x8的二維數組整理成一個64字節的一維數組），還是得到一個8x8的整數頻率數據。于是表示圖像大輪廓的低頻信號（人眼敏感的信號）集中在 8x8的左上角；表示圖像細節的高頻信號集中在右下角。

? 接著將其量化，所謂量化，就是信號采樣的步長，8x8的整數頻率數據塊，每個數據都要除以對應位置的步長，左上角相對重要的低頻信號步長是1，也就是說0-255，是多少就是多少。而右下角是不太重要的高頻信號，比如步長取10，那么這些位置的數據都要/10，實際解碼的時候再將他們10恢復出來，這樣經過編碼的時候/10和解碼的時候10，那么步長為10的信號1, 13, 25, 37就會變成規矩的：0, 10, 20, 30, 對小于步長10的部分我們直接丟棄了，因為高頻不太重要。

? 經過量化以后，8x8的數據塊左上角的數據由于步長小，都是比較離散的，而靠近右下角的高頻數據，都比較統一，或者是一串0，因此圖像大量的細節被我們丟棄了，這時候，我們用無損壓縮方式，比如lzma2算法（jpeg是rle + huffman）將這64個byte壓縮起來，由于后面高頻數據步長大，做了除法以后，這些值都比較小，而且比較靠近，甚至右下部分都是一串0，十分便于壓縮。

? JPEG圖像有個問題就是低碼率時 block邊界比較嚴重，現代圖片壓縮技術往往要配合一些de-block算法，比如最簡單的就是邊界部分幾個像素點和周圍插值模糊一下。

做到這里我們實現了一個同 jpeg類似的靜態圖片有損壓縮算法。在視頻里面用來保存I幀數據。

2.1.2 第二步：實現宏塊誤差計算

? 視頻由連續的若干圖像幀組成，分為 I幀，P幀，所謂I幀，就是不依賴就可以獨立解碼的視頻圖像幀，而P幀則需要依賴前面已解碼的視頻幀，配合一定數據才能生成出來。所以視頻中I幀往往都比較大，而P幀比較小，如果播放器一開始收到了P幀那么是無法播放的，只有收到下一個I幀才能開始播放。I幀多了視頻就變大，I幀少了，數據量是小了，但視頻受到丟包或者數據錯誤的影響卻又會更嚴重。

? 那么所謂運動預測編碼，其實就是P幀的生成過程：繼續將圖片分成 16x16的block（為了簡單只討論yuv的y分量壓縮）。I幀內部單幀圖片壓縮我們采用了8x8的block，而這里用16x16的block來提高幀間編碼壓縮率（當然也會有更多細節損失），我們用 x, y表示像素點坐標，而s,t表示block坐標，那么坐標為（x,y）的像素點所屬的block坐標為：

s = x / 16 = x >> 4 t = y / 16 = y >> 4

? 接著要計算兩個block的相似度，即矢量的距離，可以表示為一個256維矢量（16x16）像素點色彩距離的平方，我們先定義兩個顏色的誤差為：

PixelDiff(c1, c2) = (c1- c2) ^ 2

? 那么256個點的誤差可以表示為所有對應點的像素誤差和：

BlockDiff(b1, b2) = sum( PixelDiff(c1, c2) for c1 in b1 for c2 in b2)

代碼化為：

int block_diff(const unsigned char b1[16][16], const unsigned char b2[16][16]) {int sum = 0;for (int i = 0; i < 16; i++) {for (int j = 0; j < 16; j++) {int c1 = b1[i][j];int c2 = b2[i][j];sum += (c1 - c2) * (c1 - c2);}}return sum; }

有了這個block求差的函數，我們就可以針對特定block，搜索另外若干個block中哪個和它最相似了（誤差最小）。

1.2.3 第三步：實現運動預測編碼

? 根據上面的宏塊比較函數，你已經可以知道兩個block到底像不像了，越象的block，block_diff返回值越低。那么我們有兩幀相鄰的圖片，P1，P2，假設 P1已經完成編碼了，現在要對 P2進行P幀編碼，其實就是輪詢 P2里面的每一個 block，為P2中每一個block找出上一幀中相似度最高的block坐標，并記錄下來，具體偽代碼可以表示為：

unsigned char block[16][16]; for (int t = 0; t <= maxt; t++) {for (int s = 0; s <= maxs; s++) {picture_get_block(P2, s * 16, t * 16, block); // 取得圖片 P2 的 blockint x, y;block_search_nearest(P1, &x, &y, block); // 在P1中搜索最相似的blockoutput(x, y); // 將P1中最相似的block的左上角像素坐標 (x, y) 輸出} }

? 其中在P1中搜索最相似 block的 block_search_nearest 函數原理是比較簡單的，我們可以暴力點用兩個for循環輪詢 P1中每個像素點開始的16x16的block（速度較慢），當然實際中不可能這么暴力搜索，而是圍繞P2中該block對應坐標在P1中位置作為中心，慢慢四周擴散，搜索一定步長，并得到一個：按照一定順序進行搜索，并且在一定范圍內最相似的宏塊坐標。。

于是P2進行運動預測編碼的結果就是一大堆(x,y)的坐標，代表P2上每個block在上一幀P1里面最相似的 block的位置。反過來說可能更容易理解，我們可以把第三步整個過程定義為：

怎么用若干 P1里不同起始位置的block拼湊出圖片P2來，使得拼湊以后的結果和P2最像。

1.2.4 第四步：實現P幀編碼

? 拼湊的結果就是一系列(x,y)的坐標數據，我們繼續用lzma2將它們先壓縮起來，按照 vcd的分辨率

352 x 240，我們橫向需要 352 / 16 = 22個block，縱向需要 240 / 16 = 15 個block，可以用 P1中 22 x 15 = 330

個 block的坐標信息生成一張和P2很類似的圖片 P2’ ：

for (int t = 0; t < 15; t++) {for (int s = 0; s < 22; s++, next++) {int x = block_positions[next].x; // 取得對應 P1上的 block像素位置 xint y = block_positions[next].y; // 取得對應 P1上的 block像素位置 y// 將 P1位置(x,y)開始的 16 x 16 的圖塊拷貝到 P2'的 (s * 16, t * 16)處CopyRect(P2', s * 16, t * 16, P1, x, y, 16, 16); } } 我們把用來生成P2的P1稱為 P2的 “參考幀”，再把剛才那一堆P1內用來拼成P2的 block坐標稱為 “**運動矢量**”，這是P幀里面最主要的數據內容。但是此時由P1和這些坐標數據拼湊出來的P2，你會發現粗看和P2很象，但細看會發現有些支離破碎，并且邊緣比較明顯，怎么辦呢？我們需要第四步。

1.2.5第五步：實現P幀編碼

有了剛才的運動預測矢量（一堆block的坐標），我們先用P1按照這些數據拼湊出一張類似 P2的新圖片叫做P2'，然后同P2上每個像素做減法，得到一張保存 differ的圖片： D2 = (P2 - P2') / 2

? 誤差圖片 D2上每一個點等于 P2上對應位置的點的顏色減去 P2’上對應位置的點的顏色再除以2，用8位表示差值，值是循環的，比如-2就是255，這里一般可以在結果上 + 0x80，即 128代表0，129代表2，127代表-2。繼續用一個 8位的整數可以表示 [-254, 254] 之間的誤差范圍，步長精度是2。

? 按照第三步實現的邏輯，P2’其實已經很像P2了，只是有些誤差，我們將這些誤差保存成了圖片D2，所以圖片D2中，信息量其實已經很小了，都是些細節修善，比起直接保存一張完整圖片熵要低很多的。所以我們將 D2用類似第一步提到的有損圖片壓縮方法進行編碼，得到最終的P幀數據：

Encode(P2) = Lzma2(block_positions) + 有損圖像編碼（D2）

? 具體在操作的時候，D2的圖像塊可以用16x16進行有損編碼，因為前面的運動預測數據是按16x16的宏塊搜索的，而不用象I幀那樣精確的用8x8表示，同時保存誤差圖時，量化的精度可以更粗一些用不著象I幀那么精確，可以理解成用質量更低的JPEG編碼，按照16x16的塊進行編碼，加上誤差圖D2本來信息量就不高，這樣的保存方式能夠節省不少空間。

1.2.6 第六步：實現GOP生成

? 通過前面的代碼，我們實現了I幀編碼和P幀編碼，P幀是參考P1對P2進行編碼，而所謂B幀，就是參考 P1和 P3對P2進行編碼，當然間隔不一定是1，比如可以是參考P1和P5對P2進行編碼，前提條件是P5可以依賴P1及以前的數據進行解碼。

? 不過對于一個完整的簡版視頻編碼器，I幀和P幀編碼已經夠了，市面上任然有很多面向低延遲的商用編碼器是直接干掉B幀的，因為做實時傳輸時收到B幀沒法播放，之后再往后好幾幀收到下一個I或者P幀時，先前收到的B幀才能被解碼出來，造成不少的延遲。

? 而所謂的 GOP (Group of picture) 就是由一系列類似 I, P, B, B, P, B, B, P, B, B P 組成的一個可以完整被解碼出來的圖像組，而所謂視頻文件，就是一個接一個的GOP，每個GOP由一個I幀開頭，然后接下來一組連續的P 或者 B構成，播放時只有完整收到下一個GOP的I幀才能開始播放。

最后是關于參考幀選擇，前面提到的 P2生成過程是參考了 P1，假設一個GOP中十張圖片，是 I1, P1, P2, P3, P4, ... P9 保存的，如果P1參考I1，P2參考P1, P3參考P2 .... P9參考P8這樣每一個P幀都是參考上一幀進行編碼的話，誤差容易越來越大，因為P1已經引入一定誤差了，P2在P1的基礎上誤差更大，到了P9的話，圖片質量可能已經沒法看了。

? 因此正確的參考幀選擇往往不需要這樣死板，比如可以P1-P9全部參考I1來生成，或者，P1-P4參考I1來生成，而P5-P9則參考P5來生成，這樣步子小點，誤差也不算太離譜。

1.2.7 第七步：容器組裝

? 我們生成了一組組編碼過的GOP了，這時候需要一定的文件格式將他們恰當的保存下來，記錄視頻信息，比如分辨率，幀率，時間索引等，就是一個類似MP4（h.264的容器）文件的東西。至此一個簡單的小型編碼器我們已經完成了，可以用 SDL / DirectX / OpenGL 配合實現一個播放器，愉快的將自己編碼器編碼的視頻播放出來。

1.2.8第八步：優化改進

? 這時候你已經大概學習并掌握了視頻編碼的基礎原理了，接下來大量的優化改進的坑等著你去填呢。優化有兩大方向，編碼效率優化和編碼性能優化：前者追求同質量（同信噪比）下更低的碼率，后者追求同樣質量和碼率的情況下，更快的編碼速度。

? 有這個基礎后接下來可以回過頭去看JPEG標準，MPEG1-2標準，并閱讀相關實現代碼，你會發現簡單很多了，接著肯H.264代碼，不用全部看可以針對性的了解以下H.264的I幀編碼和各種搜索預測方法，有H.264的底子，你了解 HEVC和 vpx就比較容易了。

? 參考這些編碼器一些有意思的實現來改進自己的編碼器，試驗性質，可以側重原理，各種優化技巧了解下即可，本來就是hack性質的。

有卯用呢？首先肯定很好玩，其次，當你有需要使用并修改這些編碼器為他們增加新特性的時候，你會發現前面的知識很管用了。

------有朋友說光有代碼沒有圖片演示看不大明白，好我們補充一下圖片演示：

1.3 畫面演示

3.1 這是第一幀畫面：P1（我們的參考幀）

這是第二幀畫面：P2（需要編碼的幀）

從視頻中截取的兩張間隔1-2秒的畫面，和實際情況類似，下面我們進行幾次運動搜索：

1.3.2 搜索演示1：搜索P2中車輛的車牌在P1中最接近的位置（上圖P1，下圖P2）

這是一個演示程序，鼠標選中P2上任意16x16的Block，即可搜索出P1上的 BestMatch 宏塊。雖然車輛在運動，從遠到近，但是依然找到了最接近的宏塊坐標。

1.3.3 搜索演示2：空中電線交叉位置（上圖P1，下圖P2）

1.3.3 搜索演示3：報刊停的廣告海報

同樣順利在P1中找到最接近P2里海報的宏塊位置。

圖片全搜索：根據P1和運動矢量數據（在P2中搜索到每一個宏塊在P1中最相似的位置集合）還原出來的P2’，即完全用P1各個位置的宏塊拼湊出來最像P2的圖片P2’，效果如下：

仔細觀察，有些支離破碎對吧？肯定啊，拼湊出來的東西就是這樣，現在我們用P2`和P2像素相減，得到差分圖 D2 = (P2’ - P2) / 2 + 0x80：

嗯，這就是P2`和P2兩幅圖片的不同處，看到沒？基本只有低頻了！高頻數據少到我們可以忽略，這時用有損壓縮方式比較差的效果來保存誤差圖D2，只要5KB的大小。
接著我們根據運動矢量還原的 P2’及差分圖D2來還原新的 P2，NewP2 = P2’ + (D2 - 0x80) * 2：

? 這就是之前支離破碎的 P2` 加上誤差 D2之后變成了清晰可見的樣子，基本還原了原圖P2。
? 由于D2僅僅占5KB，加上壓縮過后的運動矢量不過7KB，

? 所以參考P1我們只需要額外 7KB的數據量就可以完整表示P2了，而如果獨立將P2用質量尚可的有損壓縮方式獨立壓縮，則至少要去到50-60KB，這一下節省了差不多8倍的空間，正就是所謂運動編碼的基本原理。

再者誤差我們保存的是（P2-P2’）/2 + 0x80，實際使用時我們會用更有效率的方式，比如讓[-64,64]之間的色差精度為1，[-255,-64], [64, 255] 之間的色差精度為2-3，這樣會更加真實一些。

? 現代視頻編碼中，除了幀間預測，I幀還使用了大量幀內預測，而不是完全dct量化后編碼，前面幀間預測我們使用了參考幀的宏塊移動拼湊新幀的方式進行，而所謂幀內預測就是同一幅畫面中，未編碼部分使用已編碼部分拼湊而成。。。。。。。

H264是新一代的編碼標準，以高壓縮高質量和支持多種網絡的流媒體傳輸著稱在編碼方面，

后續：

音視頻格式封裝原理
視頻壓縮原理
幀內預測
切片
H264分層
手寫H264編碼器

粉絲交流扣裙：

總結

以上是生活随笔為你收集整理的深入讲解音视频编码原理，H264码流详解——手写H264编码器的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： AT89C52单片机的重要知识图
下一篇：图像传感器c语言,[转载]图像传感器的主