数字图像处理(dip)
原文
學科:數(shù)字圖像處理(Digital Image Processing -video)
作者:zhuhonggen
計算機視覺入門基礎
0概念介紹
0.1數(shù)字圖像處理概念
0.1.1圖像的高頻分量和低頻分量
總得來說,低頻分量(低頻信號)代表著圖像中亮度或者灰度值變化緩慢的區(qū)域,也就是圖像中大片平坦的區(qū)域,描述了圖像的主要部分。高頻分量(高頻信號)對應著圖像變化劇烈的部分,也就是圖像的邊緣(輪廓)或者噪聲以及細節(jié)部分。
之所以說噪聲也對應著高頻分量,是因為圖像噪聲在大部分情況下都是高頻的。
低頻分量:主要對整幅圖像強度的綜合度量。高頻分量:主要是對圖像邊緣和輪廓的度量。而人眼對高頻分量比較敏感。
我們試著用傅立葉變換站在另外一個角度觀察圖像,將圖像從灰度分布轉(zhuǎn)化到頻率分布(頻譜圖)上去觀察圖像的特征。需要了解的是,圖像進行二維傅立葉變換之后得到的頻譜圖,就是圖像梯度的分布圖。具體的,傅立葉頻譜圖上我們能看到明暗不一的亮點,實際是圖像上某一點與鄰域點差異的強弱,即梯度的大小。
所以說,如果一幅圖像的各個位置的強度大小相等,則圖像只存在低頻分量。從圖像的頻譜圖上看,只有一個主峰,且位于頻率為零的位置.。需要提一句的是,圖像的頻譜圖可以由傅里葉變換得到。
如果一幅圖像的各個位置的強度變化劇烈,則圖像不僅存在低頻分量,同時也存在多種高頻分量。從圖像的頻譜上看,不僅有一個主峰,同時也存在多個旁峰。可以這樣理解:圖像中的低頻分量就是圖像中梯度較小的部分,高頻分量則相反。
從直方圖上看,低頻分量對應直方圖內(nèi)大塊區(qū)域,而小塊或者離散的區(qū)域就是高頻分量。這說明低頻分量占據(jù)了圖像的主要部分。
從二維函數(shù)上理解,變化劇烈的地方就是高頻分量,變化少的地方就是低頻分量。
0.1.2采樣定理
樣定理是美國電信工程師H.奈奎斯特在1928年提出的,在數(shù)字信號處理領域中,采樣定理是連續(xù)時間信號(通常稱為“模擬信號”)和離散時間信號(通常稱為“數(shù)字信號”)之間的基本橋梁。該定理說明采樣頻率與信號頻譜之間的關系,是連續(xù)信號離散化的基本依據(jù)。 它為采樣率建立了一個足夠的條件,該采樣率允許離散采樣序列從有限帶寬的連續(xù)時間信號中捕獲所有信息。
0.1.2.1定理說明
采樣過程所應遵循的規(guī)律,又稱取樣定理、抽樣定理。采樣定理說明采樣頻率與信號頻譜之間的關系,是連續(xù)信號離散化的基本依據(jù)。
在進行模擬/數(shù)字信號的轉(zhuǎn)換過程中,當采樣頻率fs.max大于信號中最高頻率fmax的2倍時(fs.max>2fmax),采樣之后的數(shù)字信號完整地保留了原始信號中的信息,一般實際應用中保證采樣頻率為信號最高頻率的2.56~4倍;采樣定理又稱奈奎斯特定理。
如果對信號的其它約束是已知的,則當不滿足采樣率標準時,完美重建仍然是可能的。 在某些情況下(當不滿足采樣率標準時),利用附加的約束允許近似重建。 這些重建的保真度可以使用Bochner定理來驗證和量化。
0.1.3PCM編碼
PCM(Pulse Code Modulation)脈沖編碼調(diào)制是數(shù)字通信的編碼方式之一。主要過程是將話音、圖像等模擬信號每隔一定時間進行取樣,使其離散化,同時將抽樣值按分層單位四舍五入取整量化,同時將抽樣值按一組二進制碼來表示抽樣脈沖的幅值。
0.1.4圖像分辨率
圖像分辨率指圖像中存儲的信息量,是每英寸圖像內(nèi)有多少個像素點,分辨率的單位為PPI(Pixels Per Inch),通常叫做像素每英寸。圖像分辨率一般被用于ps中,用來改變圖像的清晰度。
0.1.4.1圖像分辨率原理
數(shù)碼圖像有兩大類,一類是矢量圖,也叫向量圖;另一類是點陣圖,也叫位圖。矢量圖比較簡單,它是由大量數(shù)學方程式創(chuàng)建的,其圖形是由線條和填充顏色的塊面構成的,而不是由像素組成的,對這種圖形進行放大和縮小,不會引起圖形失真。
點陣圖很復雜,是通過攝像機、數(shù)碼相機和掃描儀等設備,利用掃描的方法獲得,由像素組成的,是以每英寸的像素數(shù)(PPI)來衡量。點陣圖具有精細的圖像結構、豐富的灰度層次和廣闊的顏色階調(diào)。當然,矢量圖經(jīng)過圖像軟件的處理,也可以轉(zhuǎn)換成點陣圖。家庭影院所使用的圖像,動畫片的原圖屬于矢量圖一類,但經(jīng)過制作中的轉(zhuǎn)化,已經(jīng)和其他電影片一樣,也屬于點陣圖一類了。
0.1.5顯示分辨率
顯示分辨率是顯示器在顯示圖像時的分辨率,分辨率是用點來衡量的,顯示器上這個“點”就是指像素(pixel)。顯示分辨率的數(shù)值是指整個顯示器所有可視面積上水平像素和垂直像素的數(shù)量。例如800×600的分辨率,是指在整個屏幕上水平顯示800個像素,垂直顯示600個像素。
0.1.5.1清晰度和眼睛辨識度的關系
0.1.6像素深度
像素深度是指存儲每個像素所用的位數(shù),也用它來度量圖像的分辨率。像素深度決定彩色圖像的每個像素可能有的顏色數(shù),或者確定灰度圖像的每個像素可能有的灰度級數(shù)。
例如,一幅彩色圖像的每個像素用R,G,B三個分量表示,若每個分量用8位,那么一個像素共用24位表示,就說像素的深度為24,每個像素可以是16 777 216(2的24次方)種顏色中的一種。在這個意義上,往往把像素深度說成是圖像深度。表示一個像素的位數(shù)越多,它能表達的顏色數(shù)目就越多,而它的深度就越深。
0.1.7位面數(shù)量
一幅圖像的位面數(shù)量相當于組成圖像的像素矩陣維數(shù)。
灰度圖像一個位面
彩色圖像三個位面:紅色分量、藍色分量、綠色分量
假定圖像尺寸、,每個像素所具有的離散灰度級數(shù)為,,那么存儲這幅圖像所需的位數(shù)以及所需的字節(jié)數(shù)如下:
0.1.8鄰域與鄰接
0.1.8.1領域
鄰域:數(shù)字圖像中,鄰域分為4鄰域和8鄰域,4鄰域就是某個(x,y)點的上下左右四個點,8鄰域再加上左上右上左下右下四個點。如果p在q周圍的8個點內(nèi),就是p在q的8鄰域內(nèi)。
0.1.8.1.1四鄰域
0.1.8.1.2對角鄰域
0.1.8.1.3八鄰域
4鄰域和對角鄰域的并集就是8鄰域
0.1.8.2鄰接
鄰接:鄰接算是包含了鄰域,如果說p和q是鄰接,那么p和q必須互在鄰域內(nèi),而且這兩個的像素還要都在同一個集合V1內(nèi)。(什么叫都在集合V1內(nèi):假如集合V1包含{012345},這五個數(shù)代表的是像素值,而p值為2,q值為6,那它們兩個就不在同一個集合V1內(nèi),當然如果有個集合V2,它倆可能也在另一個集合V2內(nèi))數(shù)字圖像中常見的鄰接有三種,4鄰接、8鄰接和m鄰接。如果p在q的4鄰域內(nèi),且q和p的值都在V中,那么p和q是4鄰接的,8鄰接概念一樣。m鄰接(mixed,混合鄰接)不太一樣,如果q和p互在8鄰域內(nèi),p和q都在V內(nèi),且q的4鄰域和p的4鄰域的共同覆蓋的點不在V內(nèi),則p和q是m鄰接的。m鄰接是為了消除8鄰接的二義性而引進的。比如有個3*3矩陣{0,1,1;0,1,0;0,0,1},假設對于V={1}的集合而言,如果兩個點能構成鄰接,就算有一條路可以通過,那么右上角的1走到右下角的1,如果按照8鄰接有兩條路,而按照m鄰接,只有一條路,這就是m鄰接提出的意義。
0.1.8.2.1四-鄰接
- 2個像素p和q在V中取值;
- 且q在中p的4鄰域中
0.1.8.2.2八-鄰域
- 2個像素p和q在V中取值;
- 且q在中p的8鄰域中
0.1.8.2.3四-鄰接和八-鄰接的關系
2個像素p和q在V中取值且滿足下列條件之一
1.q在中p的4-鄰域中
2.q在中p的對角鄰域中且集合N(4)§和N(4)(q)是空集
實質(zhì):
當像素間同時存在4-鄰接和8-鄰接時,優(yōu)先采用4-鄰接,屏蔽兩個和統(tǒng)一像素間存在4-鄰接的像素之間的8-鄰接。
0.1.8.2.2.3m-鄰接(混合鄰接)
實質(zhì):當像素間同時存在4-鄰接和8-鄰接時,優(yōu)先采用4-鄰接,屏蔽兩個和統(tǒng)一像素間存在4-鄰接的像素之間的8-鄰接。
0.1.9連通性
0.1.9.1通路
0.1.9.2連通
實例:像素s和t間(上圖)
4-連通:不存在
8-連通:2條
m-連通:1條
0.1.10距離度量
0.1.10.1距離
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Uh3sbFkn-1641869310047)(https://jums.club/images/article/55454.png)]
0.1.10.2歐氏距離
0.1.10.3城市距離
0.1.11數(shù)字圖像格式
0.1.11.1矢量圖
用數(shù)學公式描述的圖像,用一系列繪圖指令表示圖像;圖像中每個形狀都用一個完整的公式描述,稱為一個對象。
優(yōu)點:
A.文件數(shù)據(jù)量很小;
B.圖像質(zhì)量與分辨率無關;
無論圖像放大或縮小多少倍,總是以顯示設備允許的最大清晰度顯示。計算機計算與顯示圖像時,往往能看到畫圖的過程。
缺點:
A.不易制作色調(diào)豐富或色彩變化太多的圖像;
B.繪出來的圖像不是很逼真;
C.不易在不同的軟件間交換文件。
0.1.11.2位圖
通過像素點表示圖像,每個像素具有顏色屬性和位置屬性。
優(yōu)點:
A.顯示速度快;
B.真實世界的圖像可以通過掃描儀、數(shù)碼相機、攝像機等設備方便的轉(zhuǎn)化為點位圖
缺點:
A.存儲和傳輸時數(shù)據(jù)量比較大;
B.縮放、旋轉(zhuǎn)時算法復雜且容易失真
0.1.11.2.1線畫稿(Line Art)
只有黑白兩種顏色。適合于由黑白兩色構成而沒有灰度陰影的圖像。
0.1.11.2灰度圖像(GrayScale)
從技術上說,就是具有從黑到白的若干種灰度的單色圖像。
若灰度圖像像素的灰度級用8bit表示,則每個像素都是介于黑色和白色之間的256(28=256)種灰度種的一種.
通常所說的黑白圖片,其實包含了黑白之間的所有灰度色調(diào)。
0.1.11.3索引顏色圖像(Index Color)
索引顏色通常也稱為映射顏色。在這種模式下,顏色是一組預先定義的、有限的顏色。
索引顏色的圖像最多只能顯示256中顏色。
索引顏色圖像在圖像文件里定義索引顏色。打開該文件時,構成該圖像具有顏色的索引值就被讀入程序里,然后根據(jù)索引值找到最終的顏色。
0.1.11.4真彩色圖像(True Color)-24位圖
自然界中幾乎所有顏色都可以有紅、綠、藍(R、G、B)組合而成。
真彩色圖像中,每一個像素由紅、綠和藍三個字節(jié)組成,每個字節(jié)為8bit,表示0到255之間的不同的亮度值。
256×256×256,能表示約1670萬種顏色。
顏色深度為每個像素24位的數(shù)字圖像是目前所能獲取、瀏覽和保存的顏色信息最豐富的彩色圖像,由于它所表達的顏色遠遠超出了人眼所能辨別的范圍,故將其稱為“真彩色”。
真彩色圖并不是說一幅圖包含了所有的顏色,而是說它具有所有顏色的能力,即最多可以包含所有的顏色。
常見RGB顏色:
0.1.12圖像文件格式
圖像文件的格式,即圖像文件的數(shù)據(jù)構成。
一般每種圖像文件均有一個文件頭,在文件頭之后是圖像數(shù)據(jù)。
文件頭:一般包含文件類型、文件制作者、制作時間、版本號、文件大小等內(nèi)容。內(nèi)容由制作該圖像文件的公司決定
圖像數(shù)據(jù):各種圖像文件的制作還涉及到圖像文件的壓縮方式和存儲效率等。
數(shù)字圖像有多種存儲格式,每種格式一般由不同的開發(fā)商支持。隨著信息技術的發(fā)展和圖像應用領域的不斷拓寬,還會出現(xiàn)新的圖像格式。
圖像文件格式體系
1.互聯(lián)網(wǎng)用:GIF、JPG、PNG
2.印刷用:TIF、JPG、TAG、PCX
3.國際標準:TIF、JPG
0.1.12.1BMP格式
0.1.12.1.1位圖文件頭
位圖文件圖是一個結構,其定義如下:結構長度固定,為14個字節(jié)(WORD為無符號16位整數(shù),DWORD為無符號32位整數(shù))
0.1.12.1.2位圖信息頭
位圖信息頭是一個結構,其定義如下:結構長度為40個字節(jié)(LONG為32位整數(shù))
0.1.12.1.3調(diào)色板
實際上是一個數(shù)組,共有biClrUsed個元素。數(shù)組中每個元素的類型是是一個RGBQUAD結構,占4個字節(jié)。真彩色圖像不需要調(diào)色板,BITMAPINFOHEADER后直接是位圖數(shù)據(jù)。
0.1.12.1.4實際的位圖數(shù)據(jù)
真彩色圖像,圖像數(shù)據(jù)就是實際的R、G、B值,三個字節(jié)表示1個像素。
對于用到調(diào)色板的位圖,圖像數(shù)據(jù)就是該像素顏色在調(diào)色板中的索引值。
2色位圖,用1位就可以表示該像素的顏色(一般0表示黑,1表示百=白),所以一個字節(jié)可以表示8個像素。
16色位圖,用4位可以表示一個像素的顏色,所以一個字節(jié)可以表示2個像素。
256色位圖,一個字節(jié)剛好可以表示1個像素。
下面兩點需注意:
(1)每一行的字節(jié)數(shù)必須是4的整數(shù)倍,如果不是,則需要補齊。
(2)BMP文件的數(shù)據(jù)存放是從下到上,從左到右的。
從文件中最先讀到的是圖像最下面一行的左邊第一個像素,然后是左邊第二個像素,接下來是倒數(shù)第二行左邊第一個像素,左邊第二個像素。以此類推,最后得到的是最上面一行的最右邊的一個像素。
0.1.12.1.5例子
例1:
200×200×3×8bit,每個像素需要用3個字節(jié) 120k字節(jié)
圖像中最多只有16中顏色。用一個表:表中的每一行記錄一種顏色RGB值。當表示一個像素的顏色時,只需要指出該顏色是在第幾行,即該顏色在表中的索引值。
表占用的字節(jié)為3(RGB) ×8(bit) ×16(顏色)=48字節(jié)
16種顏色可以用4bit表示,一個像素要用半個字節(jié)。整個圖像要用200×200×0.5,約20k字節(jié),約為前面的1/6。
RGB表,即調(diào)色板。
例2:
反色(invert):就是形成底片效果。
反色的實際含義是將R、G、B值反轉(zhuǎn)。
若顏色的量化級別是256,則新圖的R、G、B值為255減去原圖的R、G、B值。包括真彩圖、帶調(diào)色板的彩色圖(偽彩色圖)和灰度圖。
真彩圖:把反轉(zhuǎn)后的R、G、B值寫入新圖即可。
帶調(diào)色板彩色圖:只需要將調(diào)色板中的顏色反轉(zhuǎn),形成新調(diào)色板,位圖數(shù)據(jù)不動。
灰度圖:直接反轉(zhuǎn)。
0.2數(shù)學概念
0.2.1算子
算子是一個函數(shù)空間到函數(shù)空間上的映射O:X→X。廣義上的算子可以推廣到任何空間,如內(nèi)積空間等。
廣義的講,對任何函數(shù)進行某一項操作都可以認為是一個算子,甚至包括求冪次,開方都可以認為是一個算子,只是有的算子我們用了一個符號來代替他所要進行的運算罷了,所以大家看到算子就不要糾結,他和 的 沒區(qū)別,它甚至和加減乘除的基本運算符號都沒有區(qū)別,只是他可以對單對象操作罷了(有的符號比如大于、小于號要對多對象操作)。又比如取概率P{X<x},概率是集合{X<x}(他是屬于實數(shù)集的子集)對[0,1]區(qū)間的一個映射,我們知道實數(shù)域和[0,1]區(qū)間是可以一一映射的(這個后面再說),所以取概率符號P,我們認為也是一個算子,和微分,積分算子算子沒區(qū)別。總而言之,算子就是映射,就是關系,就是變換。
0.2.2卷積
在泛函分析中,卷積、旋積或摺積(英語:Convolution)是通過兩個函數(shù)f 和g 生成第三個函數(shù)的一種數(shù)學算子,表征函數(shù)f 與g經(jīng)過翻轉(zhuǎn)和平移的重疊部分函數(shù)值乘積對重疊長度的積分。
如果將參加卷積的一個函數(shù)看作區(qū)間的指示函數(shù),卷積還可以被看作是“滑動平均”的推廣。
0.2.2.1定義
0.2.3平滑算子
0.2.4梯度算法(梯度下降)
0.2.4.1定義
梯度下降是迭代法的一種,可以用于求解最小二乘問題(線性和非線性都可以)。在求解機器學習算法的模型參數(shù),即無約束優(yōu)化問題時,梯度下降(Gradient Descent)是最常采用的方法之一,另一種常用的方法是最小二乘法。在求解損失函數(shù)的最小值時,可以通過梯度下降法來一步步的迭代求解,得到最小化的損失函數(shù)和模型參數(shù)值。反過來,如果我們需要求解損失函數(shù)的最大值,這時就需要用梯度上升法來迭代了。在機器學習中,基于基本的梯度下降法發(fā)展了兩種梯度下降方法,分別為隨機梯度下降法和批量梯度下降法。
0.2.4.2簡介
0.2.4.3缺點
- 靠近極小值時收斂速度減慢。
- 直線搜索時可能會產(chǎn)生一些問題。
- 可能會“之字形”地下降。
0.2.4.4求解過程
0.2.5概率密度
概率指事件隨機發(fā)生的機率,對于均勻分布函數(shù),概率密度等于一段區(qū)間(事件的取值范圍)的概率除以該段區(qū)間的長度,它的值是非負的,可以很大也可以很小。
0.2.6分布函數(shù)
分布函數(shù)(英文Cumulative Distribution Function, 簡稱CDF),是概率統(tǒng)計中重要的函數(shù),正是通過它,可用數(shù)學分析的方法來研究隨機變量。分布函數(shù)是隨機變量最重要的概率特征,分布函數(shù)可以完整地描述隨機變量的統(tǒng)計規(guī)律,并且決定隨機變量的一切其他概率特征。
1數(shù)字圖像處理基礎
1.1直方圖變化
1.1.1灰度直方圖
直方圖性質(zhì)
1.無空間信息;
2.直方圖與圖像一對多關系;
3.可疊加性(全圖與子圖像)
直方圖的作用:
直方圖反映了圖像清晰程度。直方圖均勻分布時,圖像最清晰。
判斷一幅圖像是否清晰,查看是否合理的利用了全部被允許的灰度級。
一幅圖像應該盡可能利用全部可能的灰度級。
中間灰度級像素多,動態(tài)范圍小,圖像對比度低。
高灰度的像素占了絕大部分,圖像偏亮。
過低、過高灰度級的像素占了絕大部分,對比度過大。
1.1.2直方圖均衡化
1.1.2.1直方圖均衡化灰度映射函數(shù)
步驟:
例題:
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Ld1zahKp-1641869310066)(https://jums.club/images/article/012121.png)]
經(jīng)過直方圖處理后,出現(xiàn)了偽輪廓:
直方圖處理圖像不適用的情況:
1.1.3直方圖規(guī)定化
修改一幅圖像的直方圖,使得它與另一幅圖像的直方圖匹配或具有一種預先規(guī)定的函數(shù)形狀。
目標: 突出感興趣的灰度范圍,使圖像質(zhì)量改善。
1.2灰度變換
定義:
1.2.1線性灰度變換
定義:
1.2.1.1加常數(shù)
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-dD3AzlpZ-1641869310076)(https://jums.club/images/article/56.png)]
圖像亮度增加:
圖像亮度降低:
對比度降低:
圖像的反轉(zhuǎn)公式:
反轉(zhuǎn)例子:
1.2.1.2乘常數(shù)
公式:g(x,y)=C*f(x,y)
線性灰度一般表達式:
1.2.2 分段線性灰度變換
目的:將感興趣的灰度范圍線性拓展,相對抑制不感興趣的灰度區(qū)域。
分段線性灰度變換例子:
1.2.2.1削波
削波(cliping) 可以看做是對比度拓展的一個特例。
削波例子:
1.2.2.2閾值化
閾值化(thresholding) 可以看作是削波的一個特例。
閾值化后的圖像是黑白二值圖。閾值化是灰度圖像轉(zhuǎn)二值圖像的一種常用方法。
閾值化處理后的結果,是一幅二值圖像圖。
1.2.2.3灰度窗口變換
灰度窗口變換是將某一區(qū)間的灰度級和其它部分(背景) 分開。
灰度窗口變換可以檢測出在某一灰度窗口范圍內(nèi)的所有像素,是圖像灰度分析中的一個有力工具。
1.2.3非線性灰度變換
1.2.3.1對數(shù)變換
a,b,c是按需可以調(diào)整的參數(shù)。
低灰度區(qū)拓展,高灰度區(qū)壓縮
1.2.3.2指數(shù)變換
a,b,c是按需可以調(diào)整的參數(shù)。
低灰度區(qū)壓縮,高灰度區(qū)拓展
1.2.3.3冪函數(shù)
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-SUqu9rHZ-1641869310100)(https://jums.club/images/article/46.png)]
1.2.3.4LUT(Look-Up-Table)
灰度級變換定義了輸入像素值與輸出像素之間的映射關系,通常通過查表實現(xiàn)。可用戶自定義。
組合使用:
1.3圖像運算
1.3.1算術運算
- 加法、減法
- 乘法、除法
1.3.1.1加法
主要應用舉例:
(1)去除“疊加性”噪聲(多幅圖像平均)
(2)生成圖像疊加效果
1.3.1.2減法
1.3.1.3乘法
主要應用舉例:
(1)圖像的局部顯示
(2)用二值蒙板圖像與原圖像做乘法
1.3.2邏輯運算
- 與
- 或、異或
1.3.2.1異或運算
公式:
只有同時為0時才為0,否則都為1
主要應用舉例:
(1)獲得相交子圖像
1.3.2.2或運算
公式:
主要應用舉例:
(1)合并子圖像
1.3.2.3與運算
公式:
主要應用舉例:
(1)求兩個子圖像的相交子圖
比較運算:
上圖從左到右執(zhí)行平均、最大值、最小值、Clear if >、Clear if =、Clear if <操作。
1.4幾何運算
圖像生成過程中,由于系統(tǒng)本身具有非線性或拍攝角度不同,會使生成的圖像產(chǎn)生幾何失真。幾何失真一般分為系統(tǒng)失真和非系統(tǒng)失真,系統(tǒng)失真是有規(guī)律的、能預測的;非系統(tǒng)失真則是隨機的。
例如:
(1)鏡頭畸變;
(2)遙感圖像校正;
(3)圖像配準(配準:同一目標兩幅圖像間的空間對準。)
幾何變換不改變像素值,僅改變像素所在位置!
幾何變換可以改變圖像中物體之間的空間關系。這種運算可以看成是圖像內(nèi)的各物體在圖像內(nèi)移動的過程。例如,物體的轉(zhuǎn)動、扭曲、傾斜、拉伸等,都是幾何運算的結果。
1.4.1基本幾何變換定義
1.4.2常用的基本幾何變換
1.4.2.1平移變換
移出的部分被截斷,文件大小不會改變,新點的值統(tǒng)一設成(0)或(255)
拓展畫布,文件大小改變
1.4.2.2鏡像變換
包括水平鏡像和垂直鏡像兩種。
a、水平鏡像
b、垂直圖像
1.4.2.3旋轉(zhuǎn)變換
繞原點旋轉(zhuǎn)-α度
通常的做法是以圖像的中心為圓心旋轉(zhuǎn)
旋轉(zhuǎn)出現(xiàn)的問題:
原因:
圖像旋轉(zhuǎn)后,出現(xiàn)了兩個問題:
1)像素的排列不是完全按照原有的相鄰關系。相鄰像素之間只有8個方向。
2)會出現(xiàn)許多的空洞點。
圖像旋轉(zhuǎn)出現(xiàn)的兩個問題,本質(zhì)都是因為像素值的填充不連續(xù)的。
采用插值填充的方法解決
1.4.2.4放縮變換
公式:
a.縮小
圖像縮小實際上就是對原有的多個數(shù)據(jù)進行抽取,獲得期望縮小尺寸的數(shù)據(jù),并且盡量保持原有的特征不丟失。
最簡單的方法就是等間隔地選取數(shù)據(jù)。
圖像縮小后承載的信息量減小,所以畫布可相應縮小。
b.放大
圖像放大從字面上看,是圖像縮小的逆操作,但是,從信息處理的角度來看,則難易程度完全不一樣。
圖像縮小是從多個信息中選出所需要的信息,而圖像放大則是需要對多出的空位填入適當?shù)男轮?#xff0c;是信息的統(tǒng)計。
放大最簡單的思想是,如果需要將原圖像方法k倍,則將原圖像中的每個像素值,填在新圖像中對應的k*k大小字塊中。
放大倍數(shù)太大,會出現(xiàn)馬賽克效應。
1.4.2.5拉伸變換
公式:
1.4.3灰度級插值
旋轉(zhuǎn)與放大圖像時,產(chǎn)生了新的像素(漏點)。采用插值法,即利用鄰域的像素來估計新的像素值。
1.4.3.1最近鄰插值法
重復最臨近點
方法倍數(shù)太大,出現(xiàn)馬賽克效應。
1.4.3.2雙線性插值
雙線性插值是對最近鄰的一種改進,即用線性內(nèi)插方法,根據(jù)點的四個相鄰點的灰度值,分別在x和y方向上進行兩次插值,計算新值。
1.4.3.3高階插值
三次立方插值
利用三次多項式s(x)來逼近理論上的最佳插值函數(shù)sin(x)/x,進行插值.
2數(shù)字圖像處理數(shù)學基礎
2.1線性系統(tǒng)理論
2.1.1線性系統(tǒng)
許多圖像處理系統(tǒng)都可以用一個線性系統(tǒng)作為模型:
2.1.2線性空間不變系統(tǒng)(Linear Space Invariant, LSI)
如果系統(tǒng)響應與輸入脈沖的中心位置無關,則該系統(tǒng)稱為空間不變系統(tǒng)。
2.1.3卷積
1.正交變換
1.1正交變換
1.1.1定義
1.1.2正交矩陣
定義:n級實矩陣A稱為正交矩陣,如果AA=E。(A表示A的共軛轉(zhuǎn)置,E是單位矩陣)
1.1.3正交變換的性質(zhì)
1.1.4等價刻畫
1.1.5正交變換分類
1.2傅立葉變換
1.2.1概念
傅立葉變換,表示能將滿足一定條件的某個函數(shù)表示成三角函數(shù)(正弦和/或余弦函數(shù))或者它們的積分的線性組合。在不同的研究領域,傅立葉變換具有多種不同的變體形式,如連續(xù)傅立葉變換和離散傅立葉變換。最初傅立葉分析是作為熱過程的解析分析的工具被提出的。
1.2.2定義
1.2.3快速傅立葉變換(FFT)
1.2.3.1概念
快速傅里葉變換 (fast Fourier transform), 即利用計算機計算離散傅里葉變換(DFT)的高效、快速計算方法的統(tǒng)稱,簡稱FFT。快速傅里葉變換是1965年由J.W.庫利和T.W.圖基提出的。采用這種算法能使計算機計算離散傅里葉變換所需要的乘法次數(shù)大為減少,特別是被變換的抽樣點數(shù)N越多,FFT算法計算量的節(jié)省就越顯著。
1.2.3.2基本思想
FFT的基本思想是把原始的N點序列,依次分解成一系列的短序列。充分利用DFT計算式中指數(shù)因子 所具有的對稱性質(zhì)和周期性質(zhì),進而求出這些短序列相應的DFT并進行適當組合,達到刪除重復計算,減少乘法運算和簡化結構的目的。此后,在這思想基礎上又開發(fā)了高基和分裂基等快速算法,隨著數(shù)字技術的高速發(fā)展,1976年出現(xiàn)建立在數(shù)論和多項式理論基礎上的維諾格勒傅里葉變換算法(WFTA)和素因子傅里葉變換算法。它們的共同特點是,當N是素數(shù)時,可以將DFT算轉(zhuǎn)化為求循環(huán)卷積,從而更進一步減少乘法次數(shù),提高速度。
1.3離散余弦變換(DCT)
離散余弦變換(DCT for Discrete Cosine Transform)是與傅里葉變換相關的一種變換,它類似于離散傅里葉變換(DFT for Discrete Fourier Transform),但是只使用實數(shù)。離散余弦變換相當于一個長度大概是它兩倍的離散傅里葉變換,這個離散傅里葉變換是對一個實偶函數(shù)進行的(因為一個實偶函數(shù)的傅里葉變換仍然是一個實偶函數(shù)),在有些變形里面需要將輸入或者輸出的位置移動半個單位(DCT有8種標準類型,其中4種是常見的)。
1.3.1離散余弦變換應用
離散余弦變換,尤其是它的第二種類型,經(jīng)常被信號處理和圖像處理使用,用于對信號和圖像(包括靜止圖像和運動圖像)進行有損數(shù)據(jù)壓縮。這是由于離散余弦變換具有很強的"能量集中"特性:大多數(shù)的自然信號(包括聲音和圖像)的能量都集中在離散余弦變換后的低頻部分,而且當信號具有接近馬爾科夫過程(Markov processes)的統(tǒng)計特性時,離散余弦變換的去相關性接近于K-L變換(Karhunen-Loève 變換–它具有最優(yōu)的去相關性)的性能。
例如,在靜止圖像編碼標準JPEG中,在運動圖像編碼標準MJPEG和MPEG的各個標準中都使用了離散余弦變換。在這些標準制中都使用了二維的第二種類型離散余弦變換,并將結果進行量化之后進行熵編碼。這時對應第二種類型離散余弦變換中的n通常是8,并用該公式對每個8x8塊的每行進行變換,然后每列進行變換。得到的是一個8x8的變換系數(shù)矩陣。其中(0,0)位置的元素就是直流分量,矩陣中的其他元素根據(jù)其位置表示不同頻率的交流分量。
一個類似的變換, 改進的離散余弦變換被用在高級音頻編碼(AAC for Advanced Audio Coding),Vorbis 和 MP3 音頻壓縮當中。
離散余弦變換也經(jīng)常被用來使用譜方法來解偏微分方程,這時候離散余弦變換的不同的變量對應著數(shù)組兩端不同的奇/偶邊界條件。
1.3.2matlab應用
1.3.3DCT性質(zhì)
1.4沃爾什變換
沃爾什變換(Walsh transform) 以沃爾什函數(shù)為基本函數(shù)的一種非正弦正交變換
1.4.1一維沃爾什變換
1.4.1.1離散沃爾什變換
1.4.1.2應用
1.4.2一維沃爾什反變換
1.5哈達瑪變換
哈達瑪變換是遙感圖像自動分類中一種常用的特征變換,是利用哈達瑪矩陣作為變換矩陣新實施的遙感多光譜域變換
1.5.1反變換
2.灰度變換
一篇較好的關于灰度變換的博客more details
寫在最后
歡迎大家關注鄙人的公眾號【麥田里的守望者zhg】,讓我們一起成長,謝謝。
總結
以上是生活随笔為你收集整理的数字图像处理(dip)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 概率论与数理统计(陈希孺)笔记2.1
- 下一篇: 数学建模之时间序列分析