国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例
生活随笔
收集整理的這篇文章主要介紹了
国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
文章目錄
- 2. 特征設(shè)計(jì)與提取過(guò)程q
- 2.1 局部特征--SIFT
- 2.2局部特征HOG
- 3. 特征匯聚或變換h
- 3.1BoVW視覺(jué)詞袋模型
- 3.2PCA
- 4.以人臉識(shí)別為例
- 4.1 主動(dòng)統(tǒng)計(jì)模型
- 4.1.1ASM(active shape model)
- 4.1.2 AAM主動(dòng)表觀模型
- 4.2人臉特征提取和比對(duì)
- 特征臉
- Fisherfaces方法--本質(zhì)(Fisher線(xiàn)性判別分析)=PCA+FLD
- 貝葉斯人臉識(shí)別
- LBP
- 計(jì)算機(jī)視覺(jué)的基本任務(wù)
- 距離估計(jì)
- 距離估計(jì)是指計(jì)算輸入圖像中的每個(gè)點(diǎn)距離攝像機(jī)的物理距離,該功能對(duì)于導(dǎo)盲系統(tǒng)顯然是至關(guān)重要的
- 目標(biāo)檢測(cè)、跟蹤、定位
- ? 在圖像視頻中發(fā)現(xiàn)感興趣的目標(biāo),并給出其位置和區(qū)域。對(duì)導(dǎo)盲系統(tǒng)來(lái)說(shuō),各類(lèi)車(chē)輛、行人、紅綠燈、交通標(biāo)示等都是需關(guān)注的目標(biāo)
- 前景分割和物體分割
- 將圖像視頻中前景物體所占據(jù)的區(qū)域或輪廓勾勒出來(lái)。為了導(dǎo)盲之目的,將視野中的車(chē)輛和斑馬線(xiàn)區(qū)域勾勒出來(lái)顯然是必要的,當(dāng)然,盲道的分割以及可行走區(qū)域的分割更加重要
- 目標(biāo)分類(lèi)和識(shí)別
- 為圖像視頻中出現(xiàn)的目標(biāo)分配其所屬類(lèi)別的標(biāo)簽。這里類(lèi)別的概念是非常豐富的,例如畫(huà)面中人的男女、老少、種族等,視野內(nèi)車(chē)輛的款式乃至型號(hào),甚至是對(duì)面走來(lái)的人是誰(shuí)(認(rèn)識(shí)與否)等等
- 場(chǎng)景分類(lèi)與識(shí)別
- 根據(jù)圖像視頻內(nèi)容對(duì)拍攝環(huán)境進(jìn)行分類(lèi),如室內(nèi)、室外、山景、海景、街景等等
- 場(chǎng)景文字檢測(cè)與識(shí)別
- 特別是在城市環(huán)境中,場(chǎng)景中的各種文字對(duì)導(dǎo)盲顯然是非常重要的,例如道路名、綠燈倒計(jì)時(shí)秒數(shù)、商店名稱(chēng)等等
- 事件監(jiān)測(cè)與識(shí)別
- ? 對(duì)視頻中的人、物和場(chǎng)景等進(jìn)行分析,識(shí)別人的行為或正在發(fā)生的事件(特別是異常事件)
- 距離估計(jì)
- 定義
- 解讀wh3個(gè)0~255之間的數(shù)字中蘊(yùn)藏的、人類(lèi)可理解的內(nèi)容(邊界,區(qū)域,物體,事件,意義)
- 數(shù)學(xué)建模
- 多數(shù)計(jì)算機(jī)視覺(jué)問(wèn)題可以建模為廣義的函數(shù)擬合問(wèn)題
- 學(xué)習(xí)一個(gè)以θ\thetaθ為參數(shù)的函數(shù)F,使得y=Fθ(x)y=F_\theta(x)y=Fθ?(x)
- 其中y大致有兩大類(lèi):
- ? 類(lèi)別標(biāo)簽:有限種類(lèi)的離散型變量
- ? 續(xù)變量或向量或矩陣:連續(xù)的變量或向量
- 多數(shù)計(jì)算機(jī)視覺(jué)問(wèn)題可以建模為廣義的函數(shù)擬合問(wèn)題
- 方法
- 圖像預(yù)處理過(guò)程p
- 用于實(shí)現(xiàn)目標(biāo)對(duì)齊、幾何歸一化、亮度或顏色矯正、圖像復(fù)原(如去模糊)、圖像增強(qiáng)等處理,從而提高數(shù)據(jù)的一致性,該過(guò)程一般是人為設(shè)定的。
- 特征設(shè)計(jì)與提取過(guò)程
- 其功能是從預(yù)處理后的圖像中提取描述圖像內(nèi)容的特征,這些特征可能反應(yīng)圖像的低層(如邊緣)、中層(如部件)或高層(如場(chǎng)景)特性,一般也是依據(jù)專(zhuān)家知識(shí)人工設(shè)計(jì)的
- 該步驟一般并不需要訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)
- 特征匯聚或變換t
- 其功能是對(duì)前步提取的局部特征(一般是向量)z,進(jìn)行統(tǒng)計(jì)匯聚或降維處理,從而得到維度更低、更利于后續(xù)分類(lèi)或回歸過(guò)程的特征z′。
- 該過(guò)程一般通過(guò)專(zhuān)家設(shè)計(jì)的統(tǒng)計(jì)建模方法實(shí)現(xiàn),通常需要訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)(與下一個(gè)步驟類(lèi)似)
- 分類(lèi)器或回歸器函數(shù)h的設(shè)計(jì)與訓(xùn)練
y=Fθ(x)=h(t(q(p(x))))y=F_\theta(x)=h(t(q(p(x))))y=Fθ?(x)=h(t(q(p(x)))) - 缺點(diǎn)——淺層視覺(jué)模型
- 帶有強(qiáng)烈的“人工設(shè)計(jì)”色彩:不僅
- 依賴(lài)于專(zhuān)家知識(shí)進(jìn)行步驟的劃分,
- 更依賴(lài)專(zhuān)家知識(shí)選擇和設(shè)計(jì)各步驟的函數(shù)
- 帶有強(qiáng)烈的“人工設(shè)計(jì)”色彩:不僅
2. 特征設(shè)計(jì)與提取過(guò)程q
- 設(shè)計(jì)某種流程來(lái)提取專(zhuān)家覺(jué)得“好”的特征
- 分類(lèi)
- 局部特征
- 提取局部細(xì)節(jié),主要建模邊緣、梯度、紋理基元等
- 手段:濾波器+統(tǒng)計(jì)(直方圖)
- 典型的局部特征:SIFT, HOG, LBP, Gabor, SURF, DAISY, BRIEF, ORB, BRISK
- 全局特征
- 顏色直方圖(統(tǒng)計(jì)各個(gè)顏色出現(xiàn)的頻度
- GIST(對(duì)圖像場(chǎng)景的整體空間形狀屬性建模
- 局部特征
2.1 局部特征–SIFT
- 尺度不變特征變換,
- SIFT: Scale-Invariant Feature Transform
- ? 由David Lowe于1999年提出,其發(fā)表的ICCV1999和IJCV2004兩篇文章被谷歌引用超過(guò)65000次
- SIFT: Scale-Invariant Feature Transform
- ? 概況
- 自動(dòng)發(fā)現(xiàn)一定數(shù)量的關(guān)鍵興趣點(diǎn)
- ? 特征點(diǎn)數(shù)是不確定的,與圖像內(nèi)容有關(guān)
- 自適應(yīng)確定合適的局部鄰域范圍
-
- ? 與特征點(diǎn)尺度有關(guān)
- 提取方向直方圖作為描述特征
- ? 特征維度通常固定為128維
- ? 對(duì)尺度和旋轉(zhuǎn)等變化具有良好不變性
- 自動(dòng)發(fā)現(xiàn)一定數(shù)量的關(guān)鍵興趣點(diǎn)
- 計(jì)算步驟
- 尺度空間上的極值檢測(cè)
- 目標(biāo):識(shí)別潛在的、對(duì)尺度和旋轉(zhuǎn)不變的候選興趣點(diǎn)
- 做法:使用高斯差分(DoG)金字塔近似LoG算子,形成尺度空間用以計(jì)算極值點(diǎn)
- 不僅要考慮圖像域中空間域上的極值,也要考慮尺度域中相鄰尺度上的極值點(diǎn)
- 即:極值點(diǎn)是DoG尺度空間的本層及上下層的若干鄰域點(diǎn)中的最大/小值
- 關(guān)鍵點(diǎn)篩選和精確定位
- why?上述極值點(diǎn)都未必是穩(wěn)定可靠的特征點(diǎn),并且為之也未必精確
- 篩選:去除部分對(duì)比度低的關(guān)鍵點(diǎn),以及去除那些響應(yīng)大但不穩(wěn)定的邊緣點(diǎn)
- 精確定位:采用函數(shù)擬合法,通過(guò)求解擬合曲線(xiàn)的極值點(diǎn)來(lái)得到位置和尺度
- why?上述極值點(diǎn)都未必是穩(wěn)定可靠的特征點(diǎn),并且為之也未必精確
- 確定特征點(diǎn)主方向
- ? 為實(shí)現(xiàn)旋轉(zhuǎn)不變性,需確定每個(gè)特征點(diǎn)的主方向
- 所謂主方向,是指該特征點(diǎn)鄰域像素梯度方向的統(tǒng)計(jì)顯著方向
- ? 通過(guò)統(tǒng)計(jì)一定鄰域范圍內(nèi)像素的梯度方向直方圖得到(參見(jiàn)上圖)
- ? 為準(zhǔn)確計(jì)算主方向,可以10度為間隔構(gòu)建直方圖
- 注:清晰起見(jiàn),上圖示例的只是8個(gè)方向,即以45度為間隔
- ? 為實(shí)現(xiàn)旋轉(zhuǎn)不變性,需確定每個(gè)特征點(diǎn)的主方向
- ? 確定描述子采樣鄰域的范圍(由步驟2所得尺度決定)以獲得尺度不變性
-
? 用步驟3的主方向?qū)υ搮^(qū)域進(jìn)行旋轉(zhuǎn)以對(duì)齊到主方向,獲得旋轉(zhuǎn)不變性
-
? 將旋轉(zhuǎn)后區(qū)域劃分為d×d個(gè)子區(qū)域(d通常取為4),在每個(gè)子區(qū)域內(nèi)計(jì)算O個(gè)方向的梯度直方圖
- 與求主方向不同,這里通常取O為8,即每個(gè)方向區(qū)間為45°
- 故最終每個(gè)特征點(diǎn)的SIFT特征維度為4x4x8=128
SIFT講解視頻
-
2.2局部特征HOG
- 方向梯度直方圖
- 動(dòng)機(jī):SIFT僅在稀疏關(guān)鍵點(diǎn)鄰域內(nèi)統(tǒng)計(jì)梯度特征(找關(guān)鍵點(diǎn)費(fèi)勁
- 特點(diǎn)
- 也是統(tǒng)計(jì)局部梯度直方圖,但沒(méi)有關(guān)鍵點(diǎn)的概念
- 按不長(zhǎng)滑動(dòng)窗口直接在圖像上均勻采樣,局部區(qū)域統(tǒng)計(jì)方向,梯度直方圖
- 開(kāi)啟了稠密特征描述子的先河
- 計(jì)算步驟
- 梯度計(jì)算
- 將每個(gè)像素點(diǎn)作為中心點(diǎn)位置,計(jì)算其梯度強(qiáng)度和方向
- 可以通過(guò)水平和豎直方向的濾波器核([-1, 0, +1]和[-1, 0, +1]T)實(shí)現(xiàn)
- 將圖像分塊(Block)
- 設(shè)定圖像塊大小,例如BxB個(gè)像素,然后在圖像上以一定的步長(zhǎng)S滑動(dòng),滑動(dòng)到每個(gè)位置得到一個(gè)BxB大小的圖像塊
- S一般小于B,所以圖像塊之間是有重疊的
- 分塊細(xì)分為Cell
- 將每個(gè)分塊(BxB)均勻細(xì)分為若干個(gè)更小的分塊,每個(gè)分塊稱(chēng)為cell
- 假設(shè)每個(gè)cell大小為NxN像素, 則每個(gè)Block被劃分為(B/N)x(B/N)個(gè)Cell
- Cell內(nèi)統(tǒng)計(jì)梯度強(qiáng)度加權(quán)的方向直方圖
- 以cell為基本統(tǒng)計(jì)單元計(jì)算方向直方圖,即
- 將cell中每個(gè)像素的梯度方向按照梯度強(qiáng)度加權(quán)的方式,映射到預(yù)設(shè)的M個(gè)方向桶(bin)中,從而形成cell的方向梯度直方圖H_c
- 拼接Block內(nèi)所有Cell直方圖并歸一化
- 每個(gè)Block 內(nèi)部所有cell的H_c直接拼接得到H_b
- 然后用L1-norm或L2-Norm對(duì)其進(jìn)行歸一化處理,即得到該block的方向梯度直方圖
- 全圖HOG特征計(jì)算
- 將圖像中所有Block的特征串接起來(lái), 即得到最終的圖像HOG特征
3. 特征匯聚或變換h
- 原因
`有效性(未充分考慮隨后的任務(wù)和目標(biāo) - 方法
- 特征匯聚
- 視覺(jué)詞袋模型(BoVW),Fisher向量(FV),和局部聚合向量(VLAD)
- 特征變換方法
- PCA,線(xiàn)性判別分析、流形學(xué)習(xí)
- 特征匯聚
3.1BoVW視覺(jué)詞袋模型
- 圖-文檔;局部特征-詞
- 計(jì)算過(guò)程
- ? 1. 圖像特征提取
- 理論上,用于BoVW方法的圖像特征可以是任意特征
- ? 既可以前述的稀疏關(guān)鍵點(diǎn)SIFT特征,也可以是稠密采樣的HOG特征
- ? 實(shí)踐中,128維的稀疏關(guān)鍵點(diǎn)SIFT特征是應(yīng)用最廣泛的
- ? 2. 視覺(jué)詞典構(gòu)建
- 用于文本處理的BoW基本單元是單詞(word)
- ? 單詞是確定的,很容易統(tǒng)計(jì)詞頻
- 面向計(jì)算機(jī)視覺(jué)的單詞應(yīng)該是什么?
- ? 視覺(jué)局部特征幾乎不可能完全相同,需要首先構(gòu)建視覺(jué)單詞,形成視覺(jué)詞典(Visual Vocabulary),以便像BOW中一樣通過(guò)統(tǒng)計(jì)詞頻形成詞袋
- ? 視覺(jué)單詞可以理解為一些經(jīng)常出現(xiàn)的視覺(jué)特征,需要從一個(gè)訓(xùn)練集中學(xué)習(xí)而來(lái)
- 假設(shè)訓(xùn)練集中有M幅圖像,對(duì)第i幅圖像提取SIFT特征,設(shè)得到Ni個(gè)關(guān)鍵點(diǎn)及其每個(gè)關(guān)鍵點(diǎn)的128維SIFT描述子
- 將所有訓(xùn)練圖像中的N=Σi=1MNiN=\Sigma_{i=1}^MN_iN=Σi=1M?Ni?個(gè)SIFT特征進(jìn)行聚類(lèi)
- 例如用K-Means,高斯混合模型等,得到K個(gè)聚類(lèi)中心
- 每個(gè)聚類(lèi)中心是一個(gè)128維的向量Wk,即所謂視覺(jué)單詞
- 所有K個(gè)視覺(jué)單詞的集合即形成視覺(jué)詞典D={Wk:k=1,...,K}D=\{W_k:k=1,...,K\}D={Wk?:k=1,...,K}
- 用于文本處理的BoW基本單元是單詞(word)
- 給定任意圖像
- 計(jì)算其SIFT特征,得到l個(gè)128位的SIFT的描述子{xj}
- 將這些特征分別映射到視覺(jué)詞典中的某個(gè)視覺(jué)單詞 {Wj}
- 統(tǒng)計(jì)每個(gè)視覺(jué)單詞出現(xiàn)的頻次,可以得到一個(gè)K維的直方圖向量H
- 優(yōu)點(diǎn)
- 從L*128的不定長(zhǎng)表示->K維定長(zhǎng)表示
- 便于度量不同圖像間的距離,有利于后續(xù)圖像檢測(cè)分類(lèi)等任務(wù)
- 應(yīng)用
- 以圖搜圖SIFT+BoVW+Hashing(二值化)用于圖像檢索任務(wù)
- 圖像分類(lèi) SIFT+BoVW+SVM用于圖像分類(lèi)任務(wù)
3.2PCA
- 目標(biāo)
- 降維
- 理論:特征值的大小對(duì)應(yīng)于特征向量所描述的方向上方差的大小==》所以從w中去掉那些對(duì)應(yīng)較小特征值的特征向量,因?yàn)樵谛畔G失最小的情況下降維
- 誤差:x與重構(gòu)的x’的誤差為:Σj=1nλj?Σj=1dλj=Σj=1+dnλj\Sigma_{j=1}^n\lambda_j-\Sigma_{j=1}^ d\lambda_j=\Sigma_{j=1+d}^n\lambda_jΣj=1n?λj??Σj=1d?λj?=Σj=1+dn?λj?
- 小結(jié):
- ? 一種多元統(tǒng)計(jì)分析方法
- ? 變換后各維數(shù)據(jù)之間的相關(guān)性最小
- ? 最小均方誤差意義下的最佳變換
- ? 限定有效的參數(shù)空間范圍(在訓(xùn)練集合對(duì)象變化論域下)
4.以人臉識(shí)別為例
- 面部特征點(diǎn)定位方法
- 可變形模版的方法(下巴檢測(cè)、眼睛嘴唇檢測(cè))
4.1 主動(dòng)統(tǒng)計(jì)模型
4.1.1ASM(active shape model)
- 人臉形狀表示(n個(gè)特征點(diǎn)形成的向量s
- 統(tǒng)計(jì)形狀模型
- 人工->S={s1,s2,…,sm}
- pca:bs=Ws′(s?sˉ)?b_s=W'_s(s-\bar{s})-bs?=Ws′?(s?sˉ)?
- 重構(gòu)s=(ˉs)+Wsbs???改變bs,得到不同的人臉形狀(方向)s=\bar(s)+W_sb_s---改變bs,得到不同的人臉形狀(方向)s=(ˉ?s)+Ws?bs????改變bs,得到不同的人臉形狀(方向)
- ? 目標(biāo):求取最優(yōu)的人臉形狀(特征點(diǎn)位置)
- 求取最優(yōu)的bs參數(shù),使得用bs重建的形狀最佳的匹配輸入圖像中人臉的形狀
- ? 思路
- 首先進(jìn)行不夠可靠的局部特征點(diǎn)紋理匹配
- 然后通過(guò)全局形狀統(tǒng)計(jì)約束來(lái)對(duì)其進(jìn)行規(guī)范化
- ? 方法(迭代優(yōu)化
- 局部紋理模型:每個(gè)特征點(diǎn)自己找自己該去哪里
- ? 對(duì)每個(gè)特征點(diǎn),在其法線(xiàn)鄰域內(nèi)搜索最佳匹配局部紋理模型的點(diǎn)
- ? 局部紋理模型
- 法線(xiàn)方向的紋理梯度,稱(chēng)為Profile
- 每個(gè)特征點(diǎn)的Profile模型都要在訓(xùn)練階段統(tǒng)計(jì)而來(lái)
- ? 匹配方法
- 在法線(xiàn)上逐點(diǎn)計(jì)算(馬氏)距離
- 選擇距離最小的候選點(diǎn)作為匹配點(diǎn)
- 全局統(tǒng)計(jì)形狀模型(PCA)約束:糾正不靠譜的(瞎跑的)特征點(diǎn)
- 局部紋理模型:每個(gè)特征點(diǎn)自己找自己該去哪里
- 缺點(diǎn)
- 實(shí)質(zhì)上目標(biāo)函數(shù)缺失
- 容易形成震蕩
4.1.2 AAM主動(dòng)表觀模型
4.2人臉特征提取和比對(duì)
- 人臉存儲(chǔ)
- 幾何參數(shù)
- 亮度向量
- 特征臉
- 本質(zhì)PCA or KLT(用于人臉提取特征問(wèn)題)
- Wi-像臉?Wi是協(xié)方差矩陣的特征向量
- Fisherfaces方法–本質(zhì)(Fisher線(xiàn)性判別分析)=PCA+FLD
- 尋找一種投影變換Y=WX
- 同一人更緊致,不同人更離散
- 類(lèi)內(nèi)離散度Sw
- 類(lèi)間離散度Sb
- Sw?1SbW=WΛ目標(biāo)函數(shù):Wfld=argmaxW∣WTSBW∣∣WTSWW∣S_w^{-1}S_bW=W\Lambda\\目標(biāo)函數(shù):W_{fld}=argmax_W\frac{|W^TS_BW|}{|W^TS_WW|}Sw?1?Sb?W=WΛ目標(biāo)函數(shù):Wfld?=argmaxW?∣WTSW?W∣∣WTSB?W∣?
- 如果Sw是奇異的:正則化,Null-space
- FLD假設(shè):所有類(lèi)別具有相同的協(xié)方差分布(實(shí)際不是這樣的
- FLD的特征唯獨(dú):最大為C-1(C類(lèi))
- 貝葉斯人臉識(shí)別
- ? 類(lèi)內(nèi)差(ΩI\Omega_IΩI?)類(lèi)
- 相同個(gè)體的多幅圖象之間的差別,即包含了表情、不同光照條件、不同姿態(tài)等差別
- ? 類(lèi)間差(ΩE\Omega_EΩE? )類(lèi)
- 不同人的人臉圖象之間的差別,包含了身份變化的信息
- 相似度建模為Δ=I1?I2\Delta=I_1-I_2Δ=I1??I2?屬于類(lèi)內(nèi)差別的概率S(I1,I2)=P(Δ∈ΩI)=P(ΩI∣Δ)=P(Δ∣ΩI)P(ΩI)P(Δ∣ΩI)P(ΩI)+P(Δ∣ΩE)P(ΩE)若為正態(tài)分布:P(Δ∣ΩI)=N(Δ,ΣI)P(Δ∣ΩE)=N(Δ,ΣE)S(I_1,I_2)=P(\Delta \in \Omega_I)=P(\Omega_I|\Delta)\\=\frac{P(\Delta|\Omega_I)P(\Omega_I)}{P(\Delta|\Omega_I)P(\Omega_I)+P(\Delta|\Omega_E)P(\Omega_E)}\\若為正態(tài)分布:P(\Delta|\Omega_I)=N(\Delta,\Sigma_I)\\P(\Delta|\Omega_E)=N(\Delta,\Sigma_E)S(I1?,I2?)=P(Δ∈ΩI?)=P(ΩI?∣Δ)=P(Δ∣ΩI?)P(ΩI?)+P(Δ∣ΩE?)P(ΩE?)P(Δ∣ΩI?)P(ΩI?)?若為正態(tài)分布:P(Δ∣ΩI?)=N(Δ,ΣI?)P(Δ∣ΩE?)=N(Δ,ΣE?)
- ? 類(lèi)內(nèi)差(ΩI\Omega_IΩI?)類(lèi)
- Tom-vs-pete:像誰(shuí)就是誰(shuí)
- LBP:local binary patterns(圖像=語(yǔ)言)
- Gabor+FLDA
特征臉
Fisherfaces方法–本質(zhì)(Fisher線(xiàn)性判別分析)=PCA+FLD
貝葉斯人臉識(shí)別
LBP
- 建模圖像中的微模式類(lèi)型
- 與中心點(diǎn)像素亮度上的大小關(guān)系
- 一種建模鄰域像素與中心像素亮度序關(guān)系的局部特征
- 3x3像素鄰域,中心像素和8-鄰域像素亮度大小關(guān)系
- ? 比中心像素更亮則賦1,否則賦0,這樣會(huì)有256種不同的模式
- 微模式類(lèi)型可以類(lèi)比語(yǔ)言中的word(單詞)
- ? 視覺(jué)單詞的詞頻統(tǒng)計(jì)作為不同人臉的特征表示
總結(jié)
以上是生活随笔為你收集整理的国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 人工智能支撑马赛克战机理研究
- 下一篇: MongoDB:SpringBoot有关