稀疏表示介绍(上)
聲明
之前雖然聽過壓縮感知和稀疏表示,實際上昨天才正式著手開始了解,純屬新手,如有錯誤,敬請指出,共同進步。
主要學習資料是 Coursera 上 Duke 大學的公開課——Image and video processing, by Pro.Guillermo Sapiro第 9 課。
由于對圖像處理的了解也來自與該課程,沒正經兒看過幾本圖像方面的書籍,有些術語只能用視頻中的英文來表達,見諒哈!
1. Denoising 與 MAP
故事從 denoising 說起,話說手頭上有一張含有噪音的圖片 Lena,如何除去噪音得到好的 clean image 呢?
對于上面的問題,用 x 值表示某個像素的灰度值,我們可以建立這樣一個最小化的數學模型:
其中, y 表示已知的觀測值,也就是含有噪聲的原圖, x 表示要恢復成 clean image 的未知值。
模型的第一項的直觀作用就是,預測值 x 不要離觀測值 y 太遠。數學上的解釋是, x 的取值概率可以看做是以 y 為均值的高斯分布,即圖像帶有 Gaussian noise, 第二項是規則化項。由來如下:假設 x 本來是就帶有某種先驗概率的分布,現在又已知觀測值 y, 根據貝葉斯原理, 現在 x 的分布(后驗)正比于先驗概率分布與高斯分布的乘積。如果先驗概率分布也正是指數分布,將乘積取負對數,就可以得到上述在機器學習里非常常見的 MAP 模型。
現在的問題是:最好的先驗 (prior) 究竟是什么? G(x) 應該取什么形式? 定義圖像信號的最好空間是什么?
在學術界,這方面的工作已經做得非常多,對這個問題的探討過程可以比喻成類人猿向人類進化的過程:
第一張圖, prior 假設 clean image 能量盡量小, x 要盡可能地小。第二張圖, prior 認為恢復后的圖像要光滑,于是產生了 Laplacian 和 low energy 的結合,朝前進化了一步。第三張圖,prior 認為要考慮 edges 是不光滑滴,需要不同情況不同處理…… Sparse and Redundant 是正在討論的問題,目前是最新的進化版本,而后面也有一些算法,雖然也成功進化成人類,可惜太胖了,行動不便—— computationally expensive and difficult。 Sparse modeling 的先驗究竟是什么?要回答這個問題,還需要了解一些基礎概念。
2. Sparsity and Lp Norm
How to Represent Sparsity
表示一個向量的稀疏程度可以用 Lp norm, 對于 alpha 向量的某一個元素為 x, Lp norm 的計算公式和函數圖像如下:
我們希望不管 x 多大,它非零的懲罰是相同的,L0 norm 正好滿足這個要求,它表示的意思是數出 alpha 向量中非零的個數。
Sparse Modeling of Signal
一張 8×8 的圖片,可以表示成 64 維的向量 x ,如何進行稀疏表示?下圖中假設 N = 64:
左邊矩陣 D 是字典矩陣,由 K 個 N 維的列向量組成。 根據 K 與 N 的關系,又可以劃分為:
K>N: over-complete, 這種情況在稀疏表示里面最常見
K = N: complete, 例如傅里葉變換和 DCT 變換都是這種情況
K<N: under-complete
中間列向量 alpha 是一個稀疏向量,特點是非零項很少,圖中只有三個非零項,代表 D 矩陣對應行向量的線性組合。
最后 x 向量表示恢復后的向量。
atoms 表示 D 的列向量
實際上 DCT 變換也可以看做是一種稀疏表示,它的 D 向量是由固定的且剛好完備的正交基向量組成,并且 alpha 向量也具有一定稀疏性。
對于上圖,假設 D 矩陣 K>N,并且是滿秩的,那么對于任意個 N 維的向量 b (圖中是 x ),肯定有 Ax = b。現在加入 Lp norm 的約束條件,限制只能用少量的 A 的列向量 (atoms 作為基,向量 b 就被固定在某個 span 內,成為了一個 Lp 優化問題:
用紫色表示平面,用青色表示 norm 取同一個值的球形(等高線),問題如下:在平面 Ax = b 平面內選出 norm 最小的最優解
當 p >= 1時,norm ball和平面的交點有多個。這是一個凸優化問題,可以用拉格朗日乘子來解決這個問題。
當 0 < p < 1 時, norm ball 可行解十分稀疏,是一個非凸優化問題,解決這類問題很難,但是卻有很好的稀疏性。
當 p = 0 時, norm ball 上的點除了坐標軸,其他部分無限收縮,與平面的交點在某一個坐標軸上,非零系數只有一個。
回到第一節將的 MAP 模型, Sparse Modeling 模型就是非零系數限制在 L 個之內(意味著解在至多 L 個 atoms 組成的 span 里),盡可能接近平面:
這樣,我們用少量的 atoms 組合成真實信號,而 noise cannot be fitted very well, 在投影到低維空間的過程中起到了降噪的作用。
3. Some Issues:
模型可以改成 L0 norm 的形式和其他形式來計算或者求近似嗎?
解集 alpha 向量是唯一的嗎?我們可以求它的近似嗎?如果可以,如何估計近似程度?
應該采用什么樣的字典矩陣 D 才能較好地消除噪聲?字典 D 如何確定?
參考資料:
[1]:Image and video processing, by Pro.Guillermo Sapiro第 9 課
[2]http://hi.baidu.com/chb_seaok/item/bdc0903472229990b80c030f
by:daniel-D
from:http://www.cnblogs.com/daniel-D/
總結
- 上一篇: Explain
- 下一篇: vector中insert的用法