Efficient Graph-Based Image Segmentation
有關博客:
https://juejin.im/post/5ba8defd6fb9a05d28734ad7
https://blog.csdn.net/ttransposition/article/details/38024557
https://blog.csdn.net/ttransposition/article/details/38024605
?
Efficient Graph-Based Image Segmentation?是2004年由Felzenszwalb發表在IJCV上的一篇文章。主要介紹了基于圖表示的圖像分割。并且提出了一種基于貪心選擇的圖像分割方法,此方法能夠考慮到全局特征。根據距離度量方式的不同,此算法有兩種具體的實現形式。結果表明算法的運行時間接近于線性(相對于圖中邊的個數來說)。此算法的更重要的特性在于,在特征變化較小的情況下,對細節的重視性大于特征變化較大時的情況。
?
論文開頭提到了一個分割算法要想達到廣泛應用(broad utility),應該具備的兩個性質:
1.應該能提取在感知上重要的區域(perceptually important regions)
2.高效的,即最好能以線性于圖像像素數的時間運行
?
就像Urquhart 1982?所用的方法類似,文章的算法基于用圖表示圖像:圖像中的每個像素表示圖上的一個節點,每一條連接節點的無向邊都具有一個權重(weights),以衡量其連接的兩個節點之間的不相似度(dissimilarity)。與傳統方法不同的是,本文會根據相鄰區域在特征值上變化速度的大小動態調整分割閾值(adaptively adjusts the segmentation criterion based on the degree of variability in neighboring regions of the image)。
上圖這個例子說明,圖像分割算法既不能單一的使用像素強度值的變化作為分割依據,也不能使用單一的分割閾值來決定分割與否。所以文章中提到的算法基于兩個特征來判斷兩個區域是否應該合并:區域間間距和區域內間距。如果兩個區域的區域間間距明顯大于其中任意一個區域的區域內間距,那么就認為這兩個區域之間存在明顯的界限(即不可以merge兩個區域)。
?
區域對比較斷言(pairwise region comparison predicate)
定義區域內間距如下:即區域對應MST(minimum spanning treee最小生成樹)中權重最大的邊的權重值。
定義區域間間距如下:即在所有分別屬于兩個區域且有邊連接的點對中,尋找權重最小的那對(若兩個區域內的點沒有邊相連,則定義間距為正無窮大)。
(在此提到如果利用最大和最小這兩個極端的度量方式,可能對有些結果造成誤差,為了更好的魯棒性,建議選擇使用quantile點的方式。但實際實驗中,使用最值方式效果相當好(works quite well),而且復雜度明顯要比使用qualtile點方式小很多(Appendix中有關于quantile點方式復雜度的證明))。
?
有了區域內間距和區域間間距的定義之后,通過比較兩者之間的關系,就可以得出斷言函數的形式:,其中,。注意,此處的τ是一個閾值函數,用來控制兩個區域的區域間間距要在多大程度上大于他們的區域內間距才能被認定為兩個區域間有明顯的分割界限。舉個例子來說,當其中一個區域很小時,Int(C)并不能很好的反應其區域內間距(極端的情況是當C只含一個節點時,Int(C)=0)。本文在此處對τ的定義為|C|的負相關函數:,其中k是一個常數。k要根據實驗的具體情況來確定其值,但當k越大時,我們界定的可以區分兩個區域的界限就越明顯。
?
更重要的是,只要不與實驗目的相悖,任何非負函數都可以用來表示τ。比如:如果我們需要將圖像分割成為特定形狀的區域,則可以將τ定義為與復合這個特定形狀正相關的函數。而且τ對特定形狀的傾向性可強可弱。這確保了開頭提到的第一條性質的實現。
?
分割算法
?
輸入是一個有n個節點和m條邊的圖G,輸出是一系列區域。步驟如下:
0.將邊按照權重值以非遞減方式排序
1.最初的分割記為S(0),即每一個節點屬于一個區域
2.按照以下的方式由S(q-1)構造S(q):記第q條邊連接的兩個節點為vi和vj,如果在S(q-1)中vi和vj是分別屬于兩個區域并且第q條邊的權重小于兩個區域的區域內間距,則合并兩個區域。否則令S(q) = S(q-1)。
3.從q=1到q=m,重復步驟2
4.返回S(m)即為所求分割區域集合
算法過程保證了開頭提到的第二條性質。
接下來論文具體實現了兩種算法:基于Grid Graphs的和基于Nearest Neighber Graphs的方法。
兩者的區別在于graph中節點和邊的選取方式的不同:GG方法將圖像中的每個元素視為一個節點,只要兩個像素相鄰,則認為其對應的節點之間有邊連接(一般來說,每個節點有8條邊)。邊的權重值為對應兩個節點的像素值差值的絕對值。(細節方面,1預處理過程使用σ=0.8的高斯函數來對圖像進行平滑以減少噪聲。2當圖像為三通道圖像時,將算法應用于全部三個通道,只有當三個通道全部給出合并區域的建議時才合并區域。3文章中使用的k值,當圖片是128*128時k=150,當圖片是320*240時k=300,即k值大概與圖片尺寸成正比)。NNG方法先將圖像的每個像素映射到特征空間形成圖的節點,然后利用特征空間中的距離選取與其距離最近的點作為他們的鄰居(有多種方法來選擇鄰居節點,即可以選擇與其最近的k個鄰居點,也可以選擇與其距離不超過d的所有點作為鄰居點),連接鄰居點的邊權重為兩個對應節點在特征空間內的距離。
?
結果說明,NNG算法比GG算法在保證算法第一條性質的效果上要更好一些。
?
論文中還有涉及到related works和一些定理的證明,以及results部分,在此暫不做討論。
總結
以上是生活随笔為你收集整理的Efficient Graph-Based Image Segmentation的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文笔记 《Selective Sear
- 下一篇: Rich featurehierarch