计算机视觉解析力
計(jì)算機(jī)視覺(jué)解析力
視覺(jué)的解析力,常常是指視覺(jué)語(yǔ)義,視覺(jué)特征,視覺(jué)場(chǎng)景理解,視覺(jué)目標(biāo)檢測(cè),視覺(jué)變化,視覺(jué)運(yùn)動(dòng)狀態(tài)理解等等。
比如說(shuō),關(guān)于分辨率和清晰度,經(jīng)常還可以見(jiàn)到清晰度,分辨力,分辨率,解析力,解析度,解像力,解像度這些詞語(yǔ)。對(duì)于這些詞語(yǔ)分別的含義和所指的具體內(nèi)容是什么,怎樣使用才合適,目前流行的看法是很不統(tǒng)一的。
圖像進(jìn)入系統(tǒng)
在嘗試實(shí)現(xiàn)計(jì)算機(jī)視覺(jué)系統(tǒng)時(shí),需要考慮兩個(gè)主要組件:圖像采集硬件和圖像處理軟件。構(gòu)建計(jì)算機(jī)視覺(jué)系統(tǒng)要滿足的一個(gè)主要要求是測(cè)試其魯棒性。
實(shí)際上,系統(tǒng)應(yīng)該能夠適應(yīng)環(huán)境變化(例如光源、方向、縮放比例的變化),并能夠重復(fù)執(zhí)行其設(shè)計(jì)任務(wù)。為了滿足這些要求,可能有必要對(duì)系統(tǒng)的硬件或軟件進(jìn)行某種形式的約束(例如,遠(yuǎn)程控制光照環(huán)境)。
從硬件設(shè)備獲取圖像后,可以使用多種方法在軟件系統(tǒng)中以數(shù)字方式表示顏色(顏色空間)。兩種最著名的顏色空間是 RGB(紅色、綠色、藍(lán)色)和 HSV(色調(diào)、飽和度、值)。使用 HSV 顏色空間的一個(gè)主要優(yōu)點(diǎn)是:僅考慮 HS 分量,就可以使系統(tǒng)照明保持不變(如下圖所示)。
RGB 和 HSV 色彩空間
特征提取器
圖像預(yù)處理
一旦圖像進(jìn)入系統(tǒng)并使用顏色空間表示,便可以在圖像上應(yīng)用不同的運(yùn)算符以改善其表示情況:
1.點(diǎn)類(lèi)運(yùn)算符:使用圖像中的所有點(diǎn)來(lái)創(chuàng)建原始圖像的轉(zhuǎn)換版本(以便在不更改其內(nèi)容的情況下明確顯示圖像中的內(nèi)容)。點(diǎn)類(lèi)運(yùn)算符的一些示例:強(qiáng)度歸一化,直方圖均衡化和閾值化。通常使用點(diǎn)類(lèi)運(yùn)算符來(lái)更好地可視化人類(lèi)視覺(jué)圖像,但這不一定為計(jì)算機(jī)視覺(jué)系統(tǒng)提供任何優(yōu)勢(shì)。
2.組類(lèi)運(yùn)算符:在這種情況下,從原始圖像中獲取一組點(diǎn),以便在圖像的轉(zhuǎn)換版本中創(chuàng)建一個(gè)點(diǎn)。這種類(lèi)型的操作通常通過(guò)使用卷積來(lái)完成。為了獲得轉(zhuǎn)換后的結(jié)果,可以使用不同類(lèi)型的內(nèi)核與圖像進(jìn)行卷積(如下圖所示)。
一些例子是:直接平均、高斯平均和中值濾波器。結(jié)果,對(duì)圖像進(jìn)行卷積運(yùn)算可以減少圖像中的噪聲并改善其平滑度(盡管這也會(huì)導(dǎo)致圖像變得稍微模糊)。由于使用一組點(diǎn)來(lái)在新圖像中創(chuàng)建單個(gè)新點(diǎn),因此新圖像的尺寸將必然小于原始圖像的尺寸。
解決此問(wèn)題的其中一種方法是應(yīng)用零填充(將像素值設(shè)置為零)或通過(guò)在圖像的邊界使用較小的模板。使用卷積的一大主要限制是在處理大模板大小時(shí)其執(zhí)行速度,對(duì)此問(wèn)題的一種可行解決方案是改為使用傅立葉變換。
內(nèi)核卷積
一旦對(duì)圖像進(jìn)行了預(yù)處理,便可以應(yīng)用更高級(jí)的技術(shù),以嘗試通過(guò)使用一階邊緣檢測(cè)(例如 Prewitt 算子,Sobel 算子,Canny 邊緣檢測(cè)器)和霍夫變換等方法來(lái)提取圖像的邊緣和形狀。
特征提取
對(duì)圖像進(jìn)行預(yù)處理后,可以使用特征提取器從圖像中提取四種主要類(lèi)型的特征形態(tài):
· 全局特征:將整個(gè)圖像作為一個(gè)整體進(jìn)行分析,然后從特征提取器中提取單個(gè)特征向量。全局特征的一個(gè)簡(jiǎn)單例子可以是合并像素值的直方圖。
· 基于區(qū)域的特征:將圖像分割為不同的區(qū)域(例如,使用閾值或 K-Means 聚類(lèi)等技術(shù),然后使用連通域?qū)⑵溥B接為片段),然后從每個(gè)區(qū)域中提取特征??梢酝ㄟ^(guò)使用區(qū)域和邊界描述技術(shù)(例如“矩”和“鏈碼”)來(lái)提取特征。
· 基于網(wǎng)格或基于塊的特征:將圖像分為不同的塊,并從每個(gè)不同的塊中提取特征。為了從圖像塊中提取特征而使用的一種主要技術(shù)是密集 SIFT(尺度不變特征轉(zhuǎn)換)。這種類(lèi)型的功能通常用于訓(xùn)練機(jī)器學(xué)習(xí)模型。
· 局部特征:在圖像中檢測(cè)到多個(gè)單個(gè)興趣點(diǎn),并通過(guò)分析鄰近興趣點(diǎn)的像素來(lái)提取特征??梢詮膱D像中提取的興趣點(diǎn)的兩種主要類(lèi)型是角點(diǎn)和斑點(diǎn),可以使用諸如
Harris&Stephens 角點(diǎn)檢測(cè)算法和高斯拉普拉斯算子等方法來(lái)提取它們。
最后,可以使用諸如SIFT(尺度不變特征轉(zhuǎn)換)之類(lèi)的技術(shù)從檢測(cè)到的興趣點(diǎn)中提取特征。通常使用局部特征來(lái)匹配圖像以構(gòu)建全景圖/ 3D重建或從數(shù)據(jù)庫(kù)中檢索圖像。
一旦提取了一組判別特征,就可以使用它們來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型進(jìn)行推理。使用OpenCV之類(lèi)的庫(kù)可以輕松地在 Python中應(yīng)用功能描述符。
機(jī)器學(xué)習(xí)
在計(jì)算機(jī)視覺(jué)中用于對(duì)圖像進(jìn)行分類(lèi)的一個(gè)主要概念是視覺(jué)詞袋模型(BoVW)。為了構(gòu)造視覺(jué)詞袋模型,首先需要通過(guò)從一組圖像中提取所有特征(例如,使用基于網(wǎng)格的特征或局部特征)來(lái)創(chuàng)建詞匯表。
接下來(lái),可以計(jì)算提取的特征在圖像中出現(xiàn)的次數(shù),并根據(jù)結(jié)果構(gòu)建頻率直方圖。使用頻率直方圖作為基本模板,最終可以通過(guò)比較圖像的直方圖來(lái)根據(jù)圖像是否屬于同一類(lèi)進(jìn)行分類(lèi)。
此過(guò)程可以概括為以下幾個(gè)步驟:
1.首先通過(guò)使用特征提取算法(例如 SIFT 和 Dense SIFT)從圖像數(shù)據(jù)集中提取不同的特征來(lái)構(gòu)建詞匯表。
2.其次,使用 K-Means 或 DBSCAN 等算法對(duì)詞匯表中的所有特征進(jìn)行聚類(lèi),并使用聚類(lèi)質(zhì)心來(lái)總結(jié)數(shù)據(jù)分布。
3.最后,可以通過(guò)計(jì)算詞匯中不同特征出現(xiàn)在圖像中的次數(shù)從每個(gè)圖像構(gòu)建頻率直方圖。
然后,通過(guò)對(duì)要分類(lèi)的每個(gè)圖像重復(fù)相同的過(guò)程,然后使用任意分類(lèi)算法,找出詞匯表中哪個(gè)圖像與測(cè)試圖像最相似,可以對(duì)新圖像進(jìn)行分類(lèi)。
視覺(jué)詞袋模型
如今,由于創(chuàng)建了諸如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸人工神經(jīng)網(wǎng)絡(luò)(RCNN)的人工神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),可以為計(jì)算機(jī)視覺(jué)提出一個(gè)替代的工作流程。
計(jì)算機(jī)視覺(jué)工作流程
在這種情況下,深度學(xué)習(xí)算法結(jié)合了計(jì)算機(jī)視覺(jué)工作流程的特征提取和分類(lèi)步驟。當(dāng)使用卷積神經(jīng)網(wǎng)絡(luò)時(shí),神經(jīng)網(wǎng)絡(luò)的每一層在向密集層分類(lèi)器提供特征向量之前,在其描述中應(yīng)用不同的特征提取技。
不止于此,機(jī)器學(xué)習(xí)在計(jì)算機(jī)視覺(jué)中的進(jìn)一步應(yīng)用包括多標(biāo)簽分類(lèi)和對(duì)象識(shí)別等領(lǐng)域。多標(biāo)簽分類(lèi)中將構(gòu)建一個(gè)模型,該模型能夠正確識(shí)別圖像中有多少個(gè)對(duì)象,以及它們屬于哪個(gè)類(lèi)。而在對(duì)象識(shí)別中,通過(guò)識(shí)別圖像中不同對(duì)象的位置,將進(jìn)一步發(fā)展這一概念。
總結(jié)
- 上一篇: 空间点像素索引(三)
- 下一篇: YOLOV4知识点分析(一)