當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

视频格式基础知识：让你了解MKV、MP4、H.265、码率、色深等等

發(fā)布時間：2024/8/1 编程问答 103 豆豆

生活随笔收集整理的這篇文章主要介紹了视频格式基础知识：让你了解MKV、MP4、H.265、码率、色深等等小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文轉(zhuǎn)載自：?https://www.4k123.com/thread-8194-1-1.html

本教程將分以下模塊詳細敘述：
?

1、封裝格式(MP4/MKV…)??vs 媒體格式(H.264/FLAC/AAC…)

2、視頻的基礎(chǔ)參數(shù)：分辨率，幀率和碼率

3、圖像的表示方法：RGB模型 vs YUV模型

4、色深

5、色度半采樣

6、空間上的低頻與高頻：平面，紋理和線條

7、時間上的低頻與高頻：動態(tài)

8、清晰度與畫質(zhì)簡述

1、封裝格式(MP4/MKV…)??vs 媒體格式(H.264/FLAC/AAC…)
?

MP4+MKV是你下載的視頻文件最常見的種類。這些文件其實類似一個包裹，它的后綴則是包裹的包裝方式。這些包裹里面，包含了視頻（只有圖像），音頻（只有聲音），字幕等。當播放器在播放的時候，首先對這個包裹進行拆包（專業(yè)術(shù)語叫做分離/splitting）,把其中的視頻、音頻等拿出來，再進行播放。

既然它們只是一個包裹，就意味著這個后綴不能保證里面的東西是啥，也不能保證到底有多少東西。包裹里面的每一件物品，我們稱之為軌道(track)，一般有這么些：

視頻(Video): 一般來說肯定都有，但是也有例外，比如mka格式的外掛音軌，其實就是沒視頻的mkv。注意我們說到視頻的時候，是不包括聲音的。

音頻(audio)：一般來說也肯定有，但是有些情況是靜音的，就沒必要帶了。

章節(jié)(Chapter): 藍光原盤中自帶的分段信息。如果文件帶上了，那么你可以在播放器中看到帶章節(jié)的效果：

.potplayer右鍵畫面，選項-播放-在進度條上顯示書簽/章節(jié)標記

.mpc-hc 右鍵畫面，選項-調(diào)節(jié)-在進度條顯示章節(jié)標記

字幕(Subtitles)：有些時候文件自帶字幕，并且字幕并非是直接整合于視頻的硬字幕，那么就是一起被打包在封裝容器中。

其他可能還有附件等，不一一列舉。每個類型也不一定只有一條軌道，比如經(jīng)常見到帶多音軌的MKV。

每個軌道，都有自己的格式。比如大家常說的，視頻是H.264，音頻是AAC，這些就是每個軌道的格式。

視頻的格式，常見的有H.264(可以細分為8bit/10bit)，H.265(當前也有8bit/10bit之分)，RealVideo(常見于早期rm/rmvb)，VC-1(微軟主導(dǎo)的，常見于wmv)。基本上，H.264=AVC=AVC1, H.265=HEVC。

音頻的格式，常見的有 FLAC/ALAC/TrueHD/DTS-HD MA這四種無損，和AAC/MP3/AC3/DTS(Core)這四種有損。

MKV vs MP4，主要的區(qū)別在于：

MKV支持封裝FLAC作為音頻，MP4則不支持。但是MP4也可以封裝無損音軌(比如說ALAC，雖然普遍認為ALAC的效率不如FLAC優(yōu)秀)
MKV支持封裝ASS/SSA格式的字幕，MP4則不支持。一般字幕組制作的字幕是ASS格式，所以內(nèi)封字幕多見于MKV格式
MP4作為工業(yè)標準，在視頻編輯軟件和播放設(shè)備上的兼容性一般好于MKV。這也是vcb-s那些為移動設(shè)備優(yōu)化的視頻基本上選擇MP4封裝的原因。

除此之外，這兩個格式很大程度上可以互相代替。比如它們都支持封裝AVC和HEVC，包括8bit/10bit的精度。所以MP4畫質(zhì)不如MKV好，這種論斷是非常無知的——它們完全可以封裝一樣的視頻。

為什么會有這樣的分歧，就是歷史原因了。MKV是民間研發(fā)，為了代替古老的AVI，從而更好地支持H264，它開發(fā)和修改的靈活度使得它可以兼容flac/ass這類非工業(yè)標準的格式；而MP4則是出生豪門，作為工業(yè)標準，替代更古老的MPG，作為新一代視頻/音頻封裝服務(wù)的。

2、視頻的基礎(chǔ)參數(shù)：分辨率，幀率和碼率。
?

視頻是由連續(xù)的圖像構(gòu)成的。每一張圖像，我們稱為一幀(frame)。圖像則是由像素(pixel)構(gòu)成的。一張圖像有多少像素，稱為這個圖像的分辨率。比如說1920×1080的圖像，說明它是由橫縱1920×1080個像素點構(gòu)成。視頻的分辨率就是每一幀圖像的分辨率。

一個視頻，每一秒由多少圖像構(gòu)成，稱為這個視頻的幀率(frame-rate)。常見的幀率有24000/1001=23.976, 30000/1001=29.970, 60000/1001=59.940, 25.000, 50.000等等。這個數(shù)字是一秒鐘內(nèi)閃過的圖像的數(shù)量。比如23.976，就是1001秒內(nèi)，有24000張圖像。視頻的幀率是可以是恒定的(cfr, Const Frame-Rate)，也可以是變化的(vfr, Variable Frame-Rate)

碼率的定義是視頻文件體積除以時間。單位一般是Kbps(Kbit/s)或者Mbps(Mbit/s)。注意1B(Byte)=8b(bit)。所以一個24分鐘，900MB的視頻：

體積：900MB = 900MByte = 7200Mbit

時間：24min = 1440s

碼率：7200/1440??= 5000 Kbps = 5Mbps

當視頻文件的時間基本相同的時候（比如現(xiàn)在一集番大概是24分鐘），碼率和體積基本上是等價的，都是用來描述視頻大小的參數(shù)。長度分辨率都相同的文件，體積不同，實際上就是碼率不同。

碼率也可以解讀為單位時間內(nèi)，用來記錄視頻的數(shù)據(jù)總量。碼率越高的視頻，意味著用來記錄視頻的數(shù)據(jù)量越多，潛在的解讀就是視頻可以擁有更好的質(zhì)量。（注意，僅僅是潛在，后文我們會分析為什么高碼率不一定等于高畫質(zhì)）

3、色深
?

色深(bit-depth)，就是我們通常說的8bit和10bit，是指每個通道的精度。8bit就是每個通道用一個8bit整數(shù)(0~255)代表，10bit就是用10bit整數(shù)(0~1023)來顯示。16bit則是0~65535

(注意，上文的表述是不嚴謹?shù)?#xff0c;視頻在編碼的時候，并非一定能用到0~255的所有范圍，而是可能有所保留，只用到一部分，比如16~235。這我們就不詳細展開了)

你的顯示器是8bit的，代表它能顯示RGB每個通道0~255所有強度。但是視頻的色深是YUV的色深，播放的時候，YUV需要通過計算轉(zhuǎn)換到RGB。因此，10bit的高精度是間接的，它使得運算過程中精度增加，以讓最后的顏色更細膩。

如何理解8bit顯示器，播放10bit是有必要的呢：

一個圓的半徑是12.33m, 求它的面積，保留兩位小數(shù)。

半徑的精度給定兩位小數(shù)，結(jié)果也要求兩位小數(shù)，那么圓周率精度需要給多高呢？也只要兩位小數(shù)么？
取pi=3.14, 面積算出來是477.37平方米
取pi=3.1416，面積算出來是477.61平方米
取pi精度足夠高，面積算出來是477.61平方米。所以取pi=3.1416是足夠的，但是3.14就不夠了。

換言之，即便最終輸出的精度要求較低，也不意味著參與運算的數(shù)字，以及運算過程，可以保持較低的精度。在最終輸出是8bit RGB的前提下，10bit YUV比起8bit YUV依舊具有精度優(yōu)勢的原因就在這里。事實上，8bit YUV轉(zhuǎn)換后，覆蓋的精度大概相當于8bit RGB的26%，而10bit轉(zhuǎn)換后的精度大約可以覆蓋97%——你想讓你家8bit顯示器發(fā)揮97%的細膩度么？看10bit吧。

8bit精度不足，主要表現(xiàn)在亮度較低的區(qū)域，容易形成色帶：

注意這圖右邊那一圈圈跟波浪一樣的效果。這就是顏色精度不足的表現(xiàn)。

10bit的優(yōu)勢不只在于顯示精度的提高，在提高視頻壓縮率，減少失真方面，相對8bit也有優(yōu)勢。這方面就不展開了。

4、圖像的表示方法：RGB模型 vs YUV模型
?

光的三原色是紅(Red)、綠(Green)、藍(Blue)?，F(xiàn)代的顯示器技術(shù)就是通過組合不同強度的三原色，來達成任何一種可見光的顏色。圖像儲存中，通過記錄每個像素紅綠藍強度，來記錄圖像的方法，稱為RGB模型 (RGB Model)

常見的圖片格式中，PNG和BMP這兩種就是基于RGB模型的。

三個通道下，信息量和細節(jié)程度不一定是均勻分布的。比如說可以注意南小鳥臉上的紅暈，在3個平面上的區(qū)分程度就不同——紅色平面下幾乎無從區(qū)分，造成區(qū)別的主要是綠色和藍色的平面。外圍白色的臉頰，三色都近乎飽和；但是紅暈部分，只有紅色飽和，綠色和藍色不飽和。這是造成紅色凸顯的原因。

除了RGB模型，還有一種廣泛采用的模型，稱為YUV模型，又被稱為亮度-色度模型（Luma-Chroma）。它是通過數(shù)學轉(zhuǎn)換，將RGB三個通道，轉(zhuǎn)換為一個代表亮度的通道(Y,又稱為Luma)，和兩個代表色度的通道(UV，并成為Chroma)。

舉個形象點的例子：一家養(yǎng)殖場飼養(yǎng)豬和牛，一種記數(shù)方式是：（豬的數(shù)量，牛的數(shù)量）

但是也可以這么記錄：（總數(shù)量=豬的數(shù)量+牛的數(shù)量，相差=豬的數(shù)量-牛的數(shù)量）。兩種方法之間有數(shù)學公式可以互轉(zhuǎn)。

YUV模型干的是類似的事兒。通過對RGB數(shù)據(jù)的合理轉(zhuǎn)換，得到另一種表示方式。YUV模型下，還有不同的實現(xiàn)方式。舉個用的比較多的YCbCr模型：它把RGB轉(zhuǎn)換成一個亮度(Y)，和藍色色度(Cb) 以及紅色色度(Cr)。轉(zhuǎn)換背后復(fù)雜的公式大家不需要了解，只需要看看效果：

只有亮度通道：

在圖像視頻的加工與儲存中，YUV格式一般更受歡迎，理由如下：

1、人眼對亮度的敏感度遠高于色度，因此人眼看到的有效信息主要來自于亮度。YUV模型可以將絕大多數(shù)的有效信息分配到Y(jié)通道。UV通道相對記錄的信息少的多。相對于RGB模型較為平均的分配，YUV模型將多數(shù)有效信息集中在Y通道，不但減少了冗余信息量，還為壓縮提供了便利

2、保持了對黑白顯示設(shè)備的向下兼容

3、圖像編輯中，調(diào)節(jié)亮度和顏色飽和度，在YUV模型下更方便。

幾乎所有的視頻格式，以及廣泛使用的JPEG圖像格式，都是基于YCbCr模型的。播放的時候，播放器需要將YCbCr的信息，通過計算，轉(zhuǎn)換為RGB。這個步驟稱為渲染（Rendering）

每個通道的記錄，通常是用整數(shù)來表示。比如RGB24，就是RGB各8個bit，用0~255 (8bit的二進制數(shù)范圍)來表示某個顏色的強弱。YUV模型也不例外，也是用整數(shù)來表示每個通道的高低。

5、色度半采樣
?

在YUV模型的應(yīng)用中，Y和UV的重要性是不等同的。圖像視頻的實際儲存和傳輸中，通常將Y以全分辨率記錄，UV以減半甚至1/4的分辨率記錄。這個手段被稱為色度半采樣(Chroma Sub-Sampling)。色度半采樣可以有效減少傳輸帶寬，和加大UV平面的壓縮率，但是不可避免的會損失UV平面的有效信息。

我們平常的視頻，最常見的是420采樣。配合YUV格式，常常被寫作yuv420。這種采樣是Y保留全部，UV只以(1/2) x (1/2)的分辨率記錄。比如說1920×1080的視頻，其實只有亮度平面是1920×1080。兩個色度平面都只有960×540的分辨率。

當然了，你也可以選擇不做縮減。這種稱為444采樣，或者yuv444。YUV三個平面全是滿分辨率。

在做YUV->RGB的時候，首先需要將縮水的UV分辨率拉升到Y(jié)的分辨率（madVR中允許自定義算法，在Chroma Upscaling當中），然后再轉(zhuǎn)換到RGB。做RGB->YUV的轉(zhuǎn)換，也是先轉(zhuǎn)換到444（YUV的分辨率相同），再將UV分辨率降低。

一般能拿到的片源，包括所有藍光原盤，都是420采樣的。所以成品一般也保留420采樣。所以yuv420就表示這個視頻是420采樣的yuv格式。

將420做成444格式，需要自己手動將UV分辨率拉升2×2倍。在今天madVR等渲染器可以很好地拉升UV平面的情況下，這種做法無異于毫無必要的拉升DVD做成偽高清。

當然了，有時候也需要在444/RGB平面下做處理和修復(fù)，常見的比如視頻本身RGB平面不重疊（比如摩卡少女櫻），這種修復(fù)過程首先要將UV分辨率拉升，然后轉(zhuǎn)RGB，做完修復(fù)再轉(zhuǎn)回YUV。修復(fù)后的結(jié)果相當于全新構(gòu)圖，這種情況下保留444格式就是有理由，有必要的。

H264格式編碼444格式，需要High 4:4:4 Predictive Profile（簡稱Hi444pp）。所以看到Hi444pp/yuv444 之類的標示，你就需要去找壓制者的陳述，為什么他要做這么個拉升。如果找不到有效的理由，你應(yīng)該默認作者是在瞎做。

6、空間上的低頻與高頻：平面，紋理和線條
?

在視頻處理中，空間(spatial)的概念指的是一幀圖片以內(nèi)（你可以認為就是一張圖所呈現(xiàn)的二維空間/平面）。跟時間(temporal)相對；時間的概念就強調(diào)幀與幀之間的變換。

于是我們重新來看這張亮度的圖：

亮度變化較快，變動幅度大的區(qū)域，我們稱之為高頻區(qū)域。否則，亮度變化緩慢且不明顯的區(qū)域，我們稱為低頻區(qū)域。

圖中的藍圈就是一塊典型的低頻區(qū)域，或者就叫做平面（平坦的部分）。亮度幾乎沒有變化

綠圈中，亮度呈現(xiàn)跳躍式的突變，這種高頻區(qū)域我們稱之為線條。

紅圈中，亮度頻繁變化，幅度有高有低，這種高頻區(qū)域我們稱為紋理。

有時候，線條和紋理（高頻區(qū)域）統(tǒng)稱為線條，平面（低頻區(qū)域）又叫做非線條。

這是亮度平面。色度平面，高頻低頻，線條等概念也同樣適用，就是描述色度變化的快慢輕重。一般我們所謂的“細節(jié)”，就是指圖像中的高頻信息。

一般來說，一張圖的高頻信息越多，意味著這張圖信息量越大，所需要記錄的數(shù)據(jù)量就越多，編碼所需要的運算量也越大。如果一個視頻包含的空間性高頻信息很多（通俗點說就是每一幀內(nèi)細節(jié)很多），意味著這個視頻的空間復(fù)雜度很高。

記錄一張圖片，編碼器需要決定給怎樣的部分多少碼率。碼率在一張圖內(nèi)不同部分的分配，叫做碼率的空間分配。分配較好的時候，往往整幅圖目視觀感比較統(tǒng)一；分配不好常見的后果，就是線條紋理尚可，背景平面區(qū)域出現(xiàn)大量色帶色塊（碼率被過分的分配給線條）；或者背景顏色過渡自然，紋理模糊，線條爛掉（碼率被過分的分配給非線條）。

7、時間上的低頻與高頻：動態(tài)
?

在視頻處理中，時間(temporal)的概念強調(diào)幀與幀之間的變換。跟空間(spatial)相對。

動態(tài)的概念無需多解釋；就是幀與幀之間圖像變化的強弱，變化頻率的高低。一段視頻如果動態(tài)很高，變化劇烈，我們稱為時間復(fù)雜度較高，時域上的高頻信息多。否則如果視頻本身舒緩多靜態(tài)，我們稱為時間復(fù)雜度低，時域上的低頻信息多。

一般來說，一段視頻的時域高頻信息多，動態(tài)的信息量就大，所需要記錄的數(shù)據(jù)量就越多，編碼所需要的運算量也越大。但是另一方面，人眼對高速變化的場景，敏感度不如靜態(tài)的圖片來的高（你沒有時間去仔細觀察細節(jié)），所以動態(tài)場景的優(yōu)先度可以低于靜態(tài)場景。如何權(quán)衡以上兩點去分配碼率，被稱為碼率的時間分配。分配較好的時候，看視頻無論動態(tài)還是靜態(tài)效果都較好；分配不好的時候往往是靜態(tài)部分看著還行，動態(tài)部分糊爛掉；或者動態(tài)部分效果過分的好，浪費了大量碼率，造成靜態(tài)部分欠碼，瑕疵明顯。

很多人喜歡看靜止的截圖對比，來判斷視頻的畫質(zhì)。從觀看的角度，這種做法其實并不完全科學——如果你覺得比較爛的一幀其實是取自高動態(tài)場景，那么這一幀稍微爛點無可厚非，反正觀看的時候你注意不到，將碼率省下來給靜態(tài)部分會更好。

8、清晰度與畫質(zhì)簡述
?

我們經(jīng)常討論，一個視頻清晰度如何，畫質(zhì)好不好。但是如何給這兩個術(shù)語做定義呢？

經(jīng)常看到的說法：“這個視頻清晰度是1080p的”。其實看過上文你就應(yīng)該知道，1080p只是視頻的分辨率，它不能直接代表清晰度——比如說，我可以把一個480p的dvd視頻拉升到1080p，那又怎樣呢？它的清晰度難道就提高了么？

一個比較接近清晰度的概念，是上文所講述的，空間高頻信息量，就是一幀內(nèi)的細節(jié)。一張圖，一個視頻的細節(jié)多，它的清晰度就高。分辨率決定了高頻信息量的上限；就是它最清晰能到什么地步。1080p之所以比480p好，是因為它可以允許圖像記錄的高頻信息多。這個說法看樣子很靠譜，但是，有反例：

右圖的高頻信息遠比左圖多——它的線條很銳利，有大量致密的噪點（注意噪點完全符合高頻信息的定義；它使得圖像變化的非常快）
但是你真的覺得右圖清晰度高么？
事實上，右圖完全是通過左圖加工而來。通過過度銳化+強噪點，人為的增加無效的高頻信息。

所以清晰度的定義我更傾向于這樣一個說法：圖像或視頻中，原生、有效的高頻信息。
原生，強調(diào)這種清晰度是非人工添加的；有效；強調(diào)細節(jié)本身有意義，而不是毫無意義的噪點特效。

值得一提的是，人為增加的高頻信息不見得完全沒有幫助。有的時候適度銳化的確能夠起到不錯的目視效果：

這是一幅適度銳化后的效果。如果有人覺得右圖更好，至少某些部分更好，相信我，你不是一個人。所以適度銳化依舊是視頻和圖像處理中，可以接受的一種主觀調(diào)整的手段，一定的場合下，它確實有助于提高目視效果。

以上是清晰度的概述。注意，清晰度只是空間方面（就是一幀以內(nèi)）。如果再考慮到動態(tài)效果的優(yōu)秀與否（視頻是不是那種一動起來就糊成一團的，或者動起來感覺卡頓明顯的，常見于早起RMVB），空間和時間上優(yōu)秀的觀看效果共同定義了畫質(zhì)。所以我們說madVR/svp那些倍幀效果有助于提高畫質(zhì)，實際上它們增強了時間上的觀看效果。

好的畫質(zhì)，是制作者和觀眾共同追求的。怎么樣的視頻會有好的畫質(zhì)呢？是不是碼率越高的視頻畫質(zhì)越好呢？真不見得。視頻的畫質(zhì)，是由以下幾點共同決定的：

1、源的畫質(zhì)。
俗話說的好，上梁不正下梁歪。如果源的畫質(zhì)本身很差，那么再如何折騰都別指望畫質(zhì)好到哪去。所以壓制者往往會選擇更好的源進行壓制——舉個栗子，BDRip一般都比TVRip來的好，哪怕是720p。藍光也分銷售地區(qū)，一般日本銷售的日版，畫質(zhì)上比美版、臺版、港版啥的都來得好，所以同樣是BDRip，選取更好的源，就能做到畫質(zhì)上優(yōu)先一步。

2、播放條件。
觀眾是否用了足矣支持高畫質(zhì)播放的硬件和軟件。這就是為啥我們在發(fā)布Rip的同時大力普及好的播放器；有時候一個好的播放器勝過多少在制作方面的精力投入。

3、碼率投入vs編碼復(fù)雜度。
視頻的時間和空間復(fù)雜度，并稱為編碼復(fù)雜度。編碼復(fù)雜度高的視頻，往往細節(jié)多，動態(tài)高（比如《魔法少女小圓劇場版叛逆的物語》），這樣的視頻天生需要較高的碼率去維持一個優(yōu)秀的觀看效果。
相反，有些視頻編碼復(fù)雜度低（比如《請問今天要來點兔子么》，動態(tài)少，線條細節(jié)柔和），這種視頻就是比較節(jié)省碼率的。

4、碼率分配的效率和合理度。
同樣多的碼率，能起到怎樣好的效果，被稱為效率。比如H264就比之前的RealVideo效率高；10bit比8bit效率高；編碼器先進，參數(shù)設(shè)置的比較合理，編碼器各種高端參數(shù)全開（通常以編碼時間作為代價），碼率效率就高。
合理度就是碼率在時空分配方面合理與否，合理的分配，給觀眾的觀看效果就比較統(tǒng)一協(xié)調(diào)。碼率分配的效率和合理度，是對制作者的要求，要求制作者對片源分析，參數(shù)設(shè)置有比較到位的理解。

這里再多提一句，至少在這個時間點，也就是此文發(fā)布的2014年年底，HEVC相對于AVC可以提高50%的效率，依舊是一個紙面上的理論值。實際操作中，因為HEVC編碼器的成熟度遠不及經(jīng)過了十幾年發(fā)展的AVC編碼器，導(dǎo)致現(xiàn)在HEVC的潛力遠沒有能發(fā)揮出來，特別是高畫質(zhì)下甚至不如。

對于目前主流的，定位收藏畫質(zhì)的BDRip，同樣碼率下x265的畫質(zhì)相對于x264沒有優(yōu)勢；所以在近期，大家不用優(yōu)先的去下載HEVC版作為收藏目的，更不必迷信什么“碼率降低一半”。再強調(diào)一次，這個時間點；如果一年后以上陳述被不斷進步的HEVC編碼器推翻，我毫不驚訝。就比如目前4K就開始使用改編碼方式了。

總結(jié)

以上是生活随笔為你收集整理的视频格式基础知识：让你了解MKV、MP4、H.265、码率、色深等等的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：基于微信小程序的智能填表工具软件系统
下一篇：【资料】avr单片机和stm32区别,a

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

视频格式基础知识：让你了解MKV、MP4、H.265、码率、色深等等

總結(jié)