當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数字媒体概论——2D图像图形

發(fā)布時間：2023/12/20 编程问答 66 豆豆

生活随笔收集整理的這篇文章主要介紹了数字媒体概论——2D图像图形小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一：色彩基礎

1.1：色彩認知

色彩是能引起我們共同的審美愉悅的、最為敏感的形式要素。色彩是最有表現力的要素之一，因為它的性質直接影響人們的感情。

豐富多樣的顏色可以分成兩個大類：無彩色系和有彩色系。有彩色系的顏色具有三個基本特性：色調、純度（也稱彩度、飽和度）、亮度。在色彩學上也稱為色彩的三大要素或色彩的三屬性

色調(Hue)：人眼看多種波長的光時所產生的彩色的感覺。反應了顏色的種類，是決定顏色的基本特性。
飽和度（Saturation）：指色彩的鮮艷程度，也稱作顏色的純度
亮度（Luminance / Lightness / Grayscale Value）：單位是堪德拉每平米(cd/m2)或稱nit。是從白色表面到黑色表面的感覺連續(xù)體。圖像亮度是指畫面的明亮程度，圖像作用于人眼所引起的明亮程度的感覺。它與被觀察物體的發(fā)光或反射光強度有關。

色調差異：

飽和度差異：

亮度差異：

1.2：色彩表示

HSV顏色空間（Hue-Saturation-Value）：根據顏色的直觀特性由A. R. Smith在1978年創(chuàng)建的一種顏色空間，顏色參數為色調H，飽和度S，明度V

HSI顏色空間 (Hue Saturation Intensity/Lightness), HSL：符合人視覺直觀特性的一種顏色空間，用H、S、I三參數描述顏色特性，其中H色調；S表示顏色的深淺程度，稱為飽和度；I表示強度或亮度。

CMYK 彩色空間：是彩色印刷和彩色打印行業(yè)所用的，利用色料的三原色混色原理，加上黑色油墨，共計四種顏色混合疊加，形成所謂“全彩印刷”。

四種標準顏色是：Cyan 青色，Magenta 品紅色，Yellow 黃色；black黑色
青、品紅、黃是印刷三原色，理論上可以混合出黑色，但是現實中由于生產技術的限制，油墨純度往往不盡人意。為了降低成本更直接的方式是直接使用最常用的黑色油墨

YUV/YIQ 彩色空間：YUV/YIQ/YCrCb是被電視系統(tǒng)、視頻產業(yè)所廣泛采用的顏色空間

其中“Y”表示明亮度（Luminance或Luma），也就是灰度值；而“U”和“V” 表示的則是色度（Chrominance或Chroma），作用是描述影像色彩及飽和度，用于指定像素的顏色。
YUV色彩空間的重要性是它的亮度信號Y和色度信號U、V是分離的。如果只有Y信號分量而沒有U、V信號分量，那么這樣表示的圖像就是黑白灰度圖像。彩色電視采用YUV空間正是為了用亮度信號Y解決彩色電視機與黑白電視機的兼容問題，使黑白電視機也能接收彩色電視信號。
YUV與RGB可以相互換算

RGB 彩色空間：RGB顏色標準是工業(yè)界的一種顏色標準，是通過對紅?、綠(G)、藍(B)三個顏色通道的變化以及它們相互之間的疊加來得到各式各樣的顏色的

這個標準幾乎包括了人類視力所能感知的所有顏色，是運用最廣的顏色系統(tǒng)之一。
顯示器、電腦大都采用了RGB顏色標準。在電腦中，RGB的亮度用整數來表示(例如8bit圖像取值范圍0-255) 。8bit圖像的RGB色彩總共能組合出約1678萬種色彩，即256×256×256=16777216。通常也被簡稱為1600萬色或千萬色。也稱為24位色。

視頻中為什么需要這么多的顏色空間？

雖然顏色還是那個顏色，但是不同的顏色空間的適用范圍并不相同：

RGB：面向采集和顯示設備
YUV：面向存儲
HSL：面向人類視覺感知
XYZ：RGB之間的轉換橋梁

從視頻采集到視頻消費的整個過程，涉及到不同的設備和標準，而不同的設備和標準所支持的色域空間又不相同。正是通過不同的顏色模型轉換和不同的色域轉換，才得以在不同輸入、輸出、顯示設備上都呈現出最好的顏色，才得以讓我們實現以近似相同的觀看體驗來消費視頻。

色深度/位深度 Bit Depth：色彩的數字化就是使用數字來代表顏色，計算機使用二進制bit位，如果用n bit表示彩色，則可以表示2的n次方種顏色(范圍在0~2的n次方-1之間)

灰度 Grayscale：灰度使用黑色調表示物體。每個灰度對象都具有從 0%（白色）到灰度條100%（黑色）的亮度值。

在設計領域 “灰”形容飽和度
在研究領域是亮度的一種計算
灰度值范圍與位深度有關

ALPHA通道（α Channel / Alpha Channel ）是指圖片的透明和半透明度通道

每個像素16比特存儲的位圖，每5個比特分別表示紅綠藍色，最后一個比特是阿爾法(透明/不透明)
使用32個比特存儲的位圖，每8個比特表示紅綠藍，和8bit阿爾法通道。在這種情況下，阿爾法通道還可以表示256級的半透明度。
Alpha Channel 指定圖像的透明度，在圖像編輯中有很多用途，例如蒙版
阿爾法通道圖像中像素點的像素值計算：

1.3：BMP圖像文件格式

BMP格式，又稱為Bitmap（位圖），是Windows操作系統(tǒng)中的標準圖像文件格式。這種格式的特點是包含的圖像信息較豐富，幾乎不進行壓縮

位圖文件由4個部分組成：

位圖文件頭（bitmap-file header）
位圖信息頭（bitmap-information header）
顏色表（color table）
位圖數據（Data Bits 或Data Body)

顏色表256x4=1024B
位圖數據
- 每個像素占一個字節(jié)，取得這個字節(jié)后，以該字節(jié)為索引查詢相應的顏色
- 24位、32位位圖不需要調色板，位圖數據區(qū)就不是索引而是實際的像素值
- 24位RGB按照BGR的順序來存儲每個像素的各顏色通道的值，32位數據按照BGRA的順序存儲。一個像素的所有顏色分量值都存完后才存下一個下一個像素，不進行交織存儲

1.4：色彩屬性的應用示例

白平衡：白平衡是描述顯示器中紅、綠、藍三基色混合生成后白色精確度的一項指標。反應了白色在不同色溫下所體現的視覺感受，人眼可以自動根據環(huán)境調節(jié)色溫，而相機在不同色溫下的圖像視覺感受差別很大。所以有時候為了藝術效果，有時候為了視頻鏡頭白平衡的一致性，需要對白平衡進行調整/設定

高動態(tài)范圍：傳統(tǒng)記錄顏色亮度信息一般是8位（Low Dynamic Range LDR），造成在計算和結果表達中差異范圍較少，因此反應不了人眼所能感應的光強度范圍（14+）。高動態(tài)范圍High Dynamic Range HDR圖像使用10、12、16、32位等更多bit來表現某一點的光照強度，并且在計算中采用高精度浮點運算減少誤差。單張LDR恢復HDR的操作稱為逆色調映射(Inverse Tone Mapping ITM)

照相機和攝像機采集光強的傳感器精度也是8位，因此無法同時兼顧畫面中最亮和最暗的區(qū)域

HDR拍攝采用多曝光融合，形成最后亮、暗處都很清晰的畫面。

二：圖像

2.1：位圖

位圖：靜止的圖像是一個矩陣，陣列中的各項數字用來描述構成圖像的各個點（稱為像素點Pixel ）的顏色信息。這種圖像稱為位圖（ Bit-mapped Image ）

用數碼相機拍攝的照片、掃描儀掃描的圖片以及計算機截屏圖等都屬于位圖。位圖的特點是可以表現色彩的變化和顏色的細微過渡，產生逼真的效果，缺點是在保存時需要記錄每一個像素的位置和顏色值，占用較大的存儲空間。常用的位圖處理軟件有Photoshop（同時也包含矢量功能）、Painter和Windows系統(tǒng)自帶的畫圖工具等，Adobe Illustrator則是矢量圖軟件。

2.2：分辨率

分辨率：圖像分辨率(Image Resolution): 圖像中像素個數，通常用水平垂直兩方向上的像素個數來表示

圖像可以看做矩陣，矩陣中每個元素對應圖像中每個像素
超分辨率(Super-Resolution): 圖像放大、上采樣(Upsampling)、上尺度(Upscaling)

分辨率變化產生的圖像失真：

2.3：插值

插值 Interpolation：圖像插值就是利用已知鄰近像素點的灰度值（或rgb圖像中的三色值）來產生未知像素點的灰度值，以便由原始圖像再生出具有更高分辨率的圖像。

插值是對原圖像的像素重新分布，從而來改變像素數量的一種方法。在圖像放大過程中，像素也相應地增加，增加的過程就是“插值”發(fā)生作用的過程，“插值”程序自動選擇信息較好的像素作為增加、彌補空白像素的空間，而并非只使用臨近的像素，所以在放大圖像時，圖像看上去會比較平滑、干凈。不過需要說明的是插值并不能增加圖像信息，盡管圖像尺寸變大，但效果也相對要模糊些，過程可以理解為白酒摻水。

下圖從左至右：低分辨率圖像；最近鄰插值；雙線性插值；雙三次插值；高分辨率圖像

2.4：圖像位深度

圖像位深度 Image Bit-Depth：是圖像中用來表示每一個像素的色彩所用到的二進制位數，與之前色彩的數字化表示是一致的，也常稱為色深度。

真彩圖像(True Color) ：真彩色是指圖像中的每個像素值都分成R、G、B三個基色分量，每個基色分量直接決定其基色的強度。
偽彩圖像(Pseudo Color)：像素的顏色不是由基色分量直接決定，而是把像素值當作彩色查找表(Color Look-Up Table, CLUT)的表項入口地址，查找相應的R，G，B強度值。也叫做索引圖像。
灰度圖像：把白色與黑色之間按對數關系分為若干等級，稱為灰度。灰度目前最高分為256階——8位。用灰度表示的圖像稱作灰度圖。

圖像的數字化：一幅未經壓縮的數字圖像的數據量大小計算如下：

圖像數據字節(jié)量大小 = 像素總數×圖像深度÷8 = 水平分辨率×垂直分辨率 ×圖像深度÷8一幅640×480的256色圖像為： 640×480×8／8 = 307200 bytes／1024=300KB

圖像的色彩屬性：

2.5：圖像的顯示輸出屬性

圖像的顯示輸出屬性：對于顯示器、投影機、電視機等以點陣為核心顯示方式的輸出設備，有與圖像分辨率與色彩深度相關聯(lián)的屬性。

顯示分辨率：顯示設備當前可以顯示的像素點總數。如高清分辨率可達到1920×1080。
色彩深度：顯示設備當前可以表示的顏色種類與數量。

2.6：圖像的打印輸出屬性

圖像的打印輸出屬性：對于打印機、大型彩噴、數碼沖印等圖像輸出到實物的輸出設備，也有著與圖像自身屬性類似的輸出屬性。

打印分辨率：以DPI (Dot Per Inch)表示，表示打印精度，一英寸紙面上能夠容納多少墨點。比如100DPI就是一英寸中最多有100個點。在數碼沖印中，300DPI是可達到的最好分辨率，而120DPI則是底線。
色彩數量：是指輸出設備可以表示的色彩種類。HP最新的9色噴墨打印機的色彩變化可達三億八千八百萬種。

打印照片的問題：如何知道一張圖像適合打印多大尺寸的照片？

DPI：打印精度衡量單位，指每英寸上能夠繪制的最大像素點數
高質量:5寸或7寸、低質量:10寸；需要圖像裁剪

2.7：圖像的輸入屬性

圖像的輸入屬性：

數碼相機、攝像機、掃描儀等圖像采集設備的光學器件CMOS（互補金屬氧化物半導體）或者CCD（電荷耦合器件陣列），很大程度決定了輸入圖像的品質。
光學分辨率：直接由傳感器轉換信號得到的像素值個數。照相機一半是用像素數目表示，如500萬像素；而掃描儀是用dpi，如1200dpi。
光學傳感器色彩位感知：由一個特制的棱鏡式分光鏡，將影像的成像紅綠藍成分射到三個不同的CCD平面，然后通過軟件的對準處理，合成為一幅完整的全彩色畫面。相機軟件用來記錄紅、藍、綠色的位數，體現了其色彩深度。

光場相機 Light Field：

光場技術，在1996年由斯坦福的Marc Levoy等人提出，采集光場的手段主要有兩種，一種是通過微透鏡陣列，這樣不但能記錄光線的強度信息，還能記錄光線的角度信息，另外一種是通過相機陣列技術。前者已經由RenNG成功商業(yè)化成Lytro光場相機
多相機陣列（Camera Arrays）利用不同空間位置的多個相機來采集不同視角的照片。斯坦福大學的Bennett Wilburn等人用廉價的相機搭建一個高性能的相機陣列
當所有的子相機之間的距離比較小時，也就是相機緊挨著放在一起，這時整個相機陣列可以看作一個單中心投影相機（Single-Center-of-Projection Camera）。這時整個相機陣列可以用來產生超分辨率、高信噪比、高動態(tài)范圍的照片。
當所有的子相機之間的距離都很大時，這時整個相機陣列可以看成是一個多中心投影相機（Multiple-Center-of-Projection Camera），整個相機陣列所產生的數據就叫做光場，通過這些數據，我們可以得到物體的多視角信息，為其3D重建提供重要信息。

2.8：深度圖 Depth Map/Image

深度圖像（Depth image)也被稱為距離影像（range image），是指將從圖像采集器到場景中各點的距離（深度）作為像素值的圖像，它直接反映了景物可見表面的幾何形狀。

手機圖像采集+深度采集：

ToF Time of flight：TOF是面光源投射，將紅外光均勻的投射在物體上，然后使用TOF相機捕捉紅外光反射的時間差，通過計算得出景深信息
LiDAR Light Detection and Ranging，激光探測和測距：蘋果iPhone12手機用上了LiDAR激光雷達后，可以實現更快的對焦速度和更加精準的3D建模，但是這顆雷達的探測距離僅為5米，所以和工業(yè)用途的激光雷達存在很大的性能差距

三：二維圖形

位圖圖像表示的局限性：

3.1：圖元

圖元指基本圖形元素，是最簡單的圖形，是一組描述點、線、面等幾何圖形的大小、形狀及其位置、維數的指令集合。在圖形文件中只記錄生成圖的算法和圖上的某些特征點，因此也稱矢量圖。
任何一個圖形表達都是由若干不同的點、線、面圖案或相同的圖案循環(huán)組合而成的，這些基本點線面圖案就是圖元。
圖形（Graphic）一般指用計算機繪制的畫面，由一些圖元組成。

3.2：矢量字體

矢量字體(Vector font)中每一個字形是通過數學曲線來描述的，它包含了字形邊界上的關鍵點，連線的導數信息等。字體的渲染引擎通過讀取這些數學矢量，然后進行一定的數學運算來進行渲染。這類字體的優(yōu)點是字體實際尺寸可以任意縮放而不變形、變色。

主流的矢量字體格式有3種：Type1，TrueType和OpenType，這三種格式都是與平臺無關的。

Type1全稱PostScript Type1，是1985年由Adobe公司提出的一套矢量字體標準，由于這個標準是基于PostScript Description Language(PDL)，而PDL又是高端打印機首選的打印描述語言，所以Type1迅速流行起來。但是Type1是非開放字體，Adobe對使用Type1的公司征收高額的使用費。
TrueType是1991年由Apple公司與Microsoft公司聯(lián)合提出另一套矢量字標準。由TrueType 字庫產生的字體，這里簡稱成TrueType 字體，也是Windows 常用的字體，它是一種基于輪廓技術的字體，字體信息是用直線段，二次貝塞爾曲線來描述的，這使得他們比其它矢量的字體更容易處理，保證了屏幕與打印輸出的一致性;同時，可以隨意縮放、旋轉而不必擔心會出現鋸齒，這也是矢量字體相對于點陣字體無可比擬的優(yōu)越性。

Type1使用三次貝塞爾曲線來描述字形，TrueType則使用二次貝塞爾曲線來描述字形。所以Type1的字體比TrueType字體更加精確美觀。一個誤解是，Type1字體比TrueType字體占用空間多。這是因為同樣描述一個圓形，二次貝塞爾曲線只需要8個關鍵點和7段二次曲線；而三次貝塞爾曲線則需要12個關鍵點和11段三次曲線。然而實際情況是一般來說 Type1比TrueType要小10%左右。這是因為對于稍微復雜的字形，為了保持平滑，TrueType必須使用更多的關鍵點。由于現代大部分打印機都是使用PDL作為打印描述語言，所以Type1字體打印的時候不會產生形變，速度快；而TrueType則需要翻譯成PDL，由于曲線方程的變化，還會產生一定的形變，不如Type1美觀。

這么說來，Type1應該比TrueType更具有優(yōu)勢，為什么如今的計算機上TrueType反而比Type1使用更廣泛呢？

Type1由于字體方程的復雜，所以在屏幕上渲染的時候，花費的時間多，解決方案是大部分Type1字體嵌入了點陣字體，這樣渲染快，但是邊緣不光滑，比較難看。很多ps文檔和ps轉換的pdf文檔都是這樣，在計算機上瀏覽的時候字體很難看，但是打印出來很美觀。TrueType則渲染比較快，可以平滑的顯示在屏幕上，看上去很美觀。

Type1有高額使用費，使得Type1沒有被所有的操作系統(tǒng)所支持。Windows家族只有OS/2和windows 2000及之后的版本從操作系統(tǒng)級別開始支持Type1。由于這個問題，Adobe只好在其所有的產品中嵌入Adobe Type Manager(ATM)作為渲染引擎。

OpenType則是Type1與TrueType之爭的最終產物。1995年，Adobe公司和Microsoft公司開始聯(lián)手開發(fā)一種兼容Type1和TrueType，并且真正支持Unicode的字體，后來在發(fā)布的時候，正式命名為OpenType。OpenType可以嵌入Type1和TrueType，這樣就兼有了二者的特點，無論是在屏幕上察看還是打印，質量都非常優(yōu)秀。可以說OpenType是一個三贏的結局，無論是Adobe、Microsoft還是最終用戶，都從OpenType中得到了好處。Windows家族從Windows 2000開始，正式支持OpenType。打開系統(tǒng)的字體目錄（一般是C:\Windows\Fonts\或C:\Winnt\Fonts），可以看到：一個紅色A的圖標的是點陣字體，兩個重疊的T的圖標是TrueType字體，一個O的圖標就是OpenType字體。

3.3：二維圖形的顯示輸出

由于當前的顯示輸出裝置全部都是點陣方式，因此參數化的圖元必須被表達為圖像，即逐點顏色表達才能投射到屏幕上。這個從圖元到點陣的過程被稱之為光柵化(Rasterization)，光柵化其實是一種將圖形變?yōu)槎S圖像的過程。

3.4：反走樣技術 Anti-Alasing

由于采樣不充分重建后造成的信息失真，就叫走樣；用于減少或消除這種效果的技術，就稱為反走樣。

基于超采樣的方法 Supersampling Anti-Aliasing
幾何反走樣：基于形態(tài)學的方法

3.5：圖像處理中的圖形化表達

圖形不擅長表達高頻變化的自然紋理；適宜于進行邊界表達

邊緣檢測：

語義分割：

3.6：矢量化研究

非自然圖像：

自然圖像：

3.7：二維圖形的輸入

人機交互為主的參數化輸入：

圖像矢量化（描邊）：

3.8：二維圖形的輸出

直接輸出方式—繪圖儀：可將計算機的輸出信息以圖形的形式輸出。主要可繪制各種管理圖表和統(tǒng)計圖、大地測量圖、建筑設計圖、電路布線圖、各種機械圖與計算機輔助設計圖等。一般直接與CAD軟件連接。

間接輸出方式—圖像輸出：

3.9：2D動畫

傳統(tǒng)2D動畫：

逐幀動畫（傳統(tǒng)手繪）
動畫制作流程：任務劃分->原畫->中間畫->上色->拍攝

計算機技術輔助動畫:

電腦輔助中間畫
電腦輔助上色
電腦輔助后期

現代動畫制作流程：

基于AI的2D動畫生成：

3.10：圖像與圖形

兩者本質是數字化表達方式不同

四：采集與生成

4.1：攝影設備的發(fā)展

4.2：2D圖像圖形軟件細分

2D圖像圖形軟件工作分為：調色功能、像素處理、圖層對象、圖形繪制、排版布局

4.3：常見2D格式

BMP：Windows中最常用的圖象格式，有壓縮和非壓縮兩種，存儲文件的容量較大，可表現單色到24位的色彩
DXF：AutoCAD中的圖形文件，以ASCII方式存儲圖形，表現圖形的尺寸大小非常準確，是2D圖形的通用交換格式
WMF：微軟Windows圖元文件，文件短小，圖案造型化
GIF：各種平臺的各種圖形處理軟件上均可以使用的經過壓縮的圖形格式。存儲的色彩數最高只能達到256種，色彩深度低。具有一定的動畫效果，所以多用在Web上
JPG：通過一種有損壓縮方案獲得的高壓縮率的圖像文件，色彩最高可以達到24位其“有損性”一般不易被人察覺，廣泛應用于Web中，沒有alpha通道，壓縮率高。
PNG：一種采用無損壓縮算法的位圖格式。壓縮比高，生成文件容量小。有8位、24位、32位三種形式，其中8位PNG支持兩種不同的透明形式（索引透明和alpha透明），24位PNG不支持透明，32位PNG在24位基礎上增加了8位透明通道。常用于視頻序列圖存儲以及AI算法研究
TIF：文件體積龐大，但存儲的信息量也是巨大，細微層次的信息較多，支持的顏色數最高可以達到16M，廣泛應用在輕印刷行業(yè)中。常用于紋理材質貼圖、高質量印刷圖像
PSD：Photoshop中的標準文件格式，專門為Photoshop而優(yōu)化
CRD：CorelDraw的文件格式
SWF：FLASH的發(fā)布格式，其實是一種多媒體文件的格式

五：圖像壓縮

5.1：圖像分塊

圖像被分割成大小為8x8的小塊，這些小塊在整個壓縮過程中都是單獨被處理的，最后再同樣拼接成最終結果

5.2：色彩空間變換

RGB三通道同等重要，YCbCr/YUV亮度與色度分離
對于人眼來說，圖像中明暗的變化更容易被感知到。人眼有兩種感光細胞，能夠感知亮度變化的視桿細胞，以及能夠感知顏色的視錐細胞，由于視桿細胞在數量上遠大于視錐細胞，所以更容易感知到明暗細節(jié)

5.3：JPEG圖像格式

JPEG（Joint Photographic Experts Group，聯(lián)合圖像專家小組）：此團隊創(chuàng)立于1986年，其于1992年發(fā)布的 JPEG 標準在1994年獲得了 ISO 10918-1 的認定，成為了圖片壓縮標準。

為什么要壓縮：圖像的數據量通常很大，所以就給圖像的存儲、處理和傳輸帶來了很大的問題。為了應對這些問題，就需要對圖像進行壓縮。

為什么可以壓縮：數據中存在空間、視覺、編碼等冗余。

PEG壓縮分四個步驟實現：顏色模式轉換及采樣、DCT變換、量化、編碼

1．顏色模式轉換及采樣：RGB色彩系統(tǒng)是我們最常用的表示顏色的方式。JPEG采用的是YCbCr色彩系統(tǒng)。想要用JPEG基本壓縮法處理全彩色圖像，得先把RGB顏色模式圖像數據，轉換為YCbCr顏色模式的數據。Y代表亮度，Cb和Cr則代表色度、飽和度。通過下列計算公式可完成數據轉換。 Y=0.2990R+0.5870G+0.1140B Cb=-0.1687R-0.3313G+0.5000B+128 Cr=0.5000R-0.4187G-0.0813B＋128 人類的眼晴對低頻的數據比對高頻的數據具有更高的敏感度，事實上，人類的眼睛對亮度的改變也比對色彩的改變要敏感得多，也就是說Y成份的數據是比較重要的。既然Cb成份和Cr成份的數據比較相對不重要，就可以只取部分數據來處理。以增加壓縮的比例。JPEG通常有兩種采樣方式：YUV411和YUV422，它們所代表的意義是Y、Cb和Cr三個成份的數據取樣比例。

2.DCT變換：DCT變換的全稱是離散余弦變換(Discrete Cosine Transform)，是指將一組光強數據轉換成頻率數據，以便得知強度變化的情形。若對高頻的數據做些修飾，再轉回原來形式的數據時，顯然與原始數據有些差異，但是人類的眼睛卻是不容易辨認出來。壓縮時，DCT使用64個基（Basis）表示任意 8x8 圖像塊。只要用系數（系數表示每個單獨的基對整體圖像所做的貢獻）對這64個余弦波進行加權，就可以表示出任何的圖形。

和FFT一樣，DCT也是將信號從時域到頻域的變換，不同的是DCT中變換結果沒有復數，全是實數。每8x8個像素值都變成了另外8x8個權重/系數值（經過取整，取值范圍 -1024～1023）。

3、量化：圖像數據轉換為頻率系數后，還得接受一項量化程序，才能進入編碼階段。DCT變換后，低頻部分集中在每個8x8塊的左上角，高頻部分在右下角。低頻部分比高頻部分要重要得多，移除很多高頻信息可能對于編碼信息只損失了很少信息。量化就是用使用量化矩陣與前面得到的DCT矩陣逐項相除并取整。由于量化表左上角的值較小，右下角的值較大，這樣就起到了保持低頻分量，抑制或丟掉高頻分量的目的

對Y采用細量化，對UV采用粗量化，可進一步提高壓縮比。所以上面所說的量化表通常有兩張，一張是針對亮度的；一張是針對色度的。

量化表是控制 JPEG 壓縮比的關鍵，是根據人眼對不不同頻率的敏感程度的差別所積累下的經驗制定的，可以根據輸出圖片的質量來調整量化表，表中數字越大則質量越低，壓縮率越高。

4、編碼：游程編碼（Run-length Encode, RLE）為了保證低頻分量先出現，高頻分量后出現，以增加行程中連續(xù)“0”的個數，RLE采用了“之”字型(Zig-Zag)的排列方法。編碼采用EOB（End Of Block）字段，表示從字段開始后面全為0。然后再根據Huffman編碼再進行壓縮，Huffman編碼無專利權問題，成為JPEG最常用的編碼方式

變換、量化、編碼過程回顧：

JPEG壓縮效果：

如果有興趣了解更多相關內容，歡迎來我的個人網站看看：瞳孔的個人空間

總結

以上是生活随笔為你收集整理的数字媒体概论——2D图像图形的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： P1957 口算练习题 Java
下一篇：远程控制-Sality（需专杀工具请三连