Graph Cut and Its Application in Computer Vision
Graph Cut and Its Application in Computer Vision
?
原文出處:
http://lincccc.blogspot.tw/2011/04/graph-cut-and-its-application-in.html
?
?
網絡流算法最初用于解決流網絡的優化問題,比如水管網絡、通信傳輸和城市的車流等。Graph cut作為其中一類最常見的算法,用于求解流網絡的最小割,即尋找一個總容量最小的邊集合,去掉這個集合中的所有邊將阻斷這個網絡。圖像和視頻也能被視作網絡(或者MRF),以像素作為節點,具體應用定義相鄰像素間邊的能量值(容量)。因此從九十年代末開始,Graph cut漸漸被引入計算機視覺、圖像處理和機器學習領域,用于優化分類、分割和合成等問題。
The Max-Flow and Min-Cost Problem:?
定義圖(或者流網絡)G = (V, E),可以為有向圖或無向圖。圖中所有的邊?e(u, v) ∈ E?附有一個非負的容量?c(u, v) ≥ 0,即該邊所能承受的最大流量。圖中通常定義兩個特殊的節點,源點?s?和終點?t;存在擁有多個端點的圖,對其的Max-flow求解為NP問題,需要轉化為雙端點問題求解次優解。定義滿足以下條件的?f : VXV → R?為圖?G?上的流:
?? ●? Capacity Constrain,對于所有?u, v ∈ V,f(u, v) ≤ c(u, v)
?? ●? Skew Symmetry,對于所有?u, v ∈ V,f(u, v) = ﹣f(u, v)
?? ●? Flow Conservation,對于所有?u ∈ V﹣{s, t}?和?v ∈ V,∑ f(u, v) = 0
從?s?出發的所有流量的總和就是整個圖的總流量。如下圖所示,圖的當前總流量為19,沒有達到最大值。
?
Cut(割)將整個圖的所有節點分為兩個不相交的集合?S?和?T,比如s ∈ S,t ∈ T。割的容量定義為:
?????c(S, T) = ∑x∈S?∑y∈T?c(x, y)。
Min-cut(最小割)就是圖的所有割中容量最小的一個。算法上要直接找Min-cut是十分困難的,根據最大流最小割定理,即圖的最大流量等于圖的最小割容量,通常要將問題轉化為與之等價的Max-flow問題(理論推導點我)。
Max-Flow and Min-Cost Algorithms:
Max-flow問題的求解有兩類經典的算法,增廣路徑[1] 和Push-relabel [2]。增廣路徑類算法遵循循序漸進的原則,不斷在圖上查找從?s?到?t?的可用路徑,從0開始慢慢地提升圖的總流量至最大;而Push-relabel類算法則從局部出發,總是盡可能地向圖中輸送更多的流量,在不斷重復的Push和Relabel操作中達到節點間的平衡,是水流的一種擬態。Push-relabel類算法具有較高的并行性,適用于GPU加速,大體流程點我。
增廣路徑類算法有很多衍生,但大多具有以下特性:1)維護殘余容量網絡;2)通過尋找Augmenting path逼近最大流。Augmenting path具有形式:s, e1, v1, e2, v2, … , ek, t,其中沒有重復的節點、沒有飽和的前向邊和空流量的后向邊。對殘余網絡的定義有很多形式,這里我們定義邊的殘余容量(Redsidual capacity,RC)當其為前向邊時等于?c(i, j) – f(i, j),當其為后向邊時等于?f(i, j),如下圖所示。
?
Augmenting path的殘余容量為其每條邊殘余容量的最小值,如上圖路徑的殘余容量為1。Ford-Fulkerson算法不斷在殘余網絡中查詢Augmenting path,比如使用廣度或深度優先搜索,直到再也找不到任何路徑。例子點我。Boykov[3] 提出一種雙向搜索并重用搜索樹的增廣路徑算法,雖然理論復雜度較高,但在實際應用中卻效率較高,因此很多需要Graph cut的應用都采用Boykov提供的源代碼。
Applications in Computer Vision:
計算機視覺中很多問題,都可以歸結為量化方程的優化問題。比如圖像分割的問題,定義每一個像素屬于前景或背景的可能性度量,那整個問題就變成了如何讓整個可能性量化方程取值最大的問題。當然有時,我們還需要定義平滑項,用于約束相鄰像素的屬性變化。這就形成了在視覺中最為常見的一類能量優化方程:
????? E(f) = Esmooth(f) + Edata(f)
1維圖還可用動態規劃方法求解,但2維以上由于其幾何級的復雜度增長,則大多使用Graph cut。典型的應用有Segmentation、Stereo matching、Image Restoration、Motion estimation等。根據不同的應用有不同的圖構、相鄰約束和能量函數。Kolmogorov[4] 研究了什么樣的能量方程能用Graph cut優化,并提出了三元及以下能量函數自動轉換成圖的方法。
Multi-label Graph Cut:
根據應用的需要,有時定義的圖構是多個label的,也就是有多個滅點,如下圖所示。這種圖的Min-cut是Multi-way的,求解過程是一個NP問題(Boykov[3]在他的論文中有詳細證明)。比如Stereo matching中的disparity、Image Restoration中的intensity等,其本質都是一個Multi-label的優化問題。雖然有些方法可以將其人為地轉變為2-label,但這在很大程度上限制了能量函數的定義。
?
?
Boykov[3]提出了兩種算法,能夠在多項式時間內逼近Muli-label問題的最優解,并給出了詳細證明和兩種算法的optimality property討論。這是一篇值得細讀的文章。這兩種方法都是在尋找Local minima,最終使得圖中的任意一個像素改變其label都不能產生更好的解。在每一次迭代中,兩種方法分別進行?α-expansion?和?α-β-swap?形式的move 優化。α-expansion move?是指擴展?α-label?區域,使原本其他 label 的點屬于?α;α-β-swap move?則只針對?α-label?和?β-label?區域,使其中的一些點的label從?α?變為?β?或相反。每一部迭代都是一次2-label的優化過程,形成以?α?和?非α?為滅點、以及以?α?和?β?為滅點的圖,尋找最優cut,重整label,不斷逼近最優解。α-expansion?要求平滑項滿足三邊定理,而?α-β-swap?可用于任意平滑項定義;但?α-expansion?有嚴格的optimality property bound,總不會產生太壞的結果,因此被較多地使用。
Dynamic Graph Cut:
動態圖指一個圖序列,在時序上前后圖直接會保持平滑的過渡,因此,是否可以在前一張圖的residual graph基礎上修改變化了的像素點的能量以快速地求解?Dynamic graph cut并不尋求最優解,而是次優的快速的解。Kohli[12] 使用重新參數化圖(Graph Reparameterization)的方法修改動態變化的數值,并保持Capacity、Flow等基本約束,而后直接得到次優解。這種方法可以容忍少量邊的修改和少量任意節點拓撲的重構,但是和其他所有Dynamic graph cut算法一樣,以少量、也就是輕微的時序變化為前提。主要應用于視頻相關的視覺方法,如Video segmentation。
?
?
?
?
?
Bibliography:
[1] L. Ford , D. Fulkerson.?Flows in Networks. Princeton University Press, 1962.
[2] Andrew V. Goldberg, Robert E. Tarjan.?A new approach to the maximum-flow problem. In Journal of the Association for Computing Machinery, 35(4):921–940, October 1988.
[3] Y. Boykov, V. Kolmogorov.?An Experimental Comparison of Min-Cut/Max-Flow Algorithms for Energy Minimization in Vision. In IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), volume 26, page 1124-1137, 2004.
[4] V. Kolmogorov, R. Zabih.?What Energy Functions Can Be Minimized via Graph Cuts??In IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), volume 26, no.2, page 147-159, 2004.
[5] V. Kolmogorov, R. Zabih.?Multi-camera Scene Reconstruction via Graph Cuts. In European Conference on Computer Vision (ECCV), May 2002 (best paper).
[6] Y. Boykov, O. Veksler and R. Zabih.?Faster approximate energy minimization via graph cuts. In IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), volume 23, no. 11, page 1-18, 2001.
[7] S. Roy, I. Cox.?A maximum-flow formulation of the n-camera stereo correspondence problem. In International Conference on Computer Vision (ICCV), 1998.
[8] V. Vineet, P. J. Narayanan.?CUDA Cuts: Fast Graph Cuts on the GPU. In: CVPR Workshop on Visual Computer Vision on GPUs, 2008.
[9] V. Kwatra, A. Schodl, I. Essa, G. Turk and A. Bobick.?Graphcut Textures: Image and Video Synthesis Using Graph Cuts. In SIGGRAPH 2003, pp. 277-286.
[10] A. Blum, J. Lafferty, M.R. Rwebangira and R. Reddy.?Semi-Supervised Learning Using Randomized Mincuts. In Proceedings of the 21st International Conference on Machine Learning (ICML), Banff, Canada 2004.
[11] S. Z. Li,?Markov Random Field Modeling in Computer Vision, Springer Verlag, 1995.
[12] P. Kohli and P. H. S. Torr.?Dynamic graph cuts for efficient inference in markov random fields. IEEE Trans. Pattern Anal. Mach. Intell. (PAMI), 29(12):2079–2088, 2007.
總結
以上是生活随笔為你收集整理的Graph Cut and Its Application in Computer Vision的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度解析】Google第二代深度学习引擎
- 下一篇: iOS/OS X内存管理(一):基本概念