深度学习在机器视觉应用领域的最新研究综述(物联网技术应用大作业)
摘要:機(jī)器視覺是人工智能正在快速發(fā)展的一個(gè)分支。簡(jiǎn)單說來,機(jī)器視覺就是用機(jī)器代替人眼來做測(cè)量和判斷。機(jī)器視覺系統(tǒng)是通過機(jī)器視覺產(chǎn)品(即圖像攝取裝置,分CMOS和CCD兩種)將被攝取目標(biāo)轉(zhuǎn)換成圖像信號(hào),傳送給專用的圖像處理系統(tǒng),得到被攝目標(biāo)的形態(tài)信息,根據(jù)像素分布和亮度、顏色等信息,轉(zhuǎn)變成數(shù)字化信號(hào);圖像系統(tǒng)對(duì)這些信號(hào)進(jìn)行各種運(yùn)算來抽取目標(biāo)的特征,進(jìn)而根據(jù)判別的結(jié)果來控制現(xiàn)場(chǎng)的設(shè)備動(dòng)作[1]。深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學(xué)習(xí)過程中獲得的信息對(duì)圖像等數(shù)據(jù)的解釋有很大的幫助。它的最終目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力,能夠識(shí)別文字、圖像和聲音等數(shù)據(jù),其在語音和圖像識(shí)別方面取得的效果,遠(yuǎn)遠(yuǎn)超過先前相關(guān)技術(shù)[1]。該綜述主要內(nèi)容即是關(guān)于深度學(xué)習(xí)在機(jī)器視覺應(yīng)用領(lǐng)域的研究。
1引言
由文獻(xiàn)[2]可知在深度學(xué)習(xí)算法出來之前,對(duì)于視覺算法來說,大致可以分為以下5個(gè)步驟:特征感知、圖像預(yù)處理、特征提取、特征篩選、推理預(yù)測(cè)與識(shí)別。早期的機(jī)器學(xué)習(xí)中,占優(yōu)勢(shì)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)群體中,對(duì)特征是不大關(guān)心的。計(jì)算機(jī)視覺可以說是機(jī)器學(xué)習(xí)在視覺領(lǐng)域的應(yīng)用,所以計(jì)算機(jī)視覺在采用這些機(jī)器學(xué)習(xí)方法的時(shí)候,不得不自行設(shè)計(jì)前4個(gè)部分,而這是一個(gè)艱難的任務(wù)。傳統(tǒng)的計(jì)算機(jī)識(shí)別方法把特征提取和分類器設(shè)計(jì)分開來做,然后在應(yīng)用時(shí)再合在一起,比如如果輸入是一個(gè)人臉圖像的話,首先要有一個(gè)特征表達(dá)或者特征提取的過程,然后把表達(dá)出來的特征放到學(xué)習(xí)算法中進(jìn)行分類的學(xué)習(xí)。因?yàn)槭止ぴO(shè)計(jì)特征需要大量的經(jīng)驗(yàn),需要設(shè)計(jì)者對(duì)該領(lǐng)域和數(shù)據(jù)特別了解,設(shè)計(jì)出的特征還需要大量的調(diào)試工作。而另一個(gè)難點(diǎn)在于,設(shè)計(jì)者不只需要手工設(shè)計(jì)特征,還需要在此基礎(chǔ)上有一個(gè)比較合適的分類器算法,同時(shí)設(shè)計(jì)特征并且選擇一個(gè)分類器,這兩者合并達(dá)到最優(yōu)的效果,幾乎是不可能完成的任務(wù)。
如果不手動(dòng)設(shè)計(jì)特征,不挑選分類器,有沒有別的方案呢?能否同時(shí)學(xué)習(xí)特征和選擇分類器呢?即輸入某一個(gè)模型的時(shí)候,輸入圖片,輸出其標(biāo)簽。比如輸入一個(gè)員工的人臉,輸出的標(biāo)簽就是一個(gè)1000維的向量(假設(shè)要在1000個(gè)人里識(shí)別),其中對(duì)應(yīng)員工的向量是1,其他的位置是0。這種設(shè)定符合人類腦科學(xué)的研究成果。AlexNet由多倫多大學(xué)幾個(gè)科學(xué)家開發(fā),在ImageNet比賽上做到了非常好的效果。當(dāng)時(shí)AlexNet識(shí)別效果超過了所有淺層的方法。此后,大家認(rèn)識(shí)到深度學(xué)習(xí)的時(shí)代終于來了,并有人用它做其它的應(yīng)用,同時(shí)也有些人開始開發(fā)新的網(wǎng)絡(luò)結(jié)構(gòu)。機(jī)器視覺中比較成功的深度學(xué)習(xí)的應(yīng)用,包括復(fù)雜環(huán)境下的人員檢測(cè)、視覺問答和物體檢測(cè)等。
2基于深度學(xué)習(xí)的復(fù)雜環(huán)境人員檢測(cè)方法研究
復(fù)雜環(huán)境指的是目標(biāo)檢測(cè)中圖像分辨率不高、光照影響、檢測(cè)區(qū)域復(fù)雜、干擾嚴(yán)重的環(huán)境。復(fù)雜的檢測(cè)環(huán)境給目標(biāo)檢測(cè)帶來了極大的干擾,國(guó)內(nèi)外研究者提出多種方法應(yīng)對(duì)復(fù)雜環(huán)境對(duì)目標(biāo)檢測(cè)的干擾,但是由于應(yīng)用場(chǎng)景不同,解決復(fù)雜環(huán)境干擾問題的方法也各不相同。在工業(yè)復(fù)雜生產(chǎn)環(huán)境下,作業(yè)人員的安全問題至關(guān)重要。大多數(shù)工業(yè)企業(yè)采用人眼觀察視頻的方式對(duì)作業(yè)人員位置進(jìn)行判斷,這種方式長(zhǎng)時(shí)間會(huì)使管理者出現(xiàn)疲勞問題,效率非常低下,遇到安全問題也不能進(jìn)行及時(shí)的處理。因此采用圖像處理以及深度學(xué)習(xí)技術(shù)使計(jì)算機(jī)代替人眼去檢測(cè)和定位人員,不僅可以提高檢測(cè)的準(zhǔn)確率,同時(shí)也可以減輕監(jiān)管人員的工作負(fù)擔(dān)。
由文獻(xiàn)[3]知在工業(yè)環(huán)境下進(jìn)行圖像的采集并進(jìn)行人員多種姿態(tài)、狀態(tài)的數(shù)量統(tǒng)計(jì),同時(shí)將數(shù)據(jù)集中的人員進(jìn)行標(biāo)注,形成算法訓(xùn)練對(duì)應(yīng)格式數(shù)據(jù)集;其次針對(duì)工業(yè)復(fù)雜環(huán)境下人員難以檢測(cè)的問題,分別使用HOG+SVM人員檢測(cè)算法、Faster_RCNN人員檢測(cè)算法以及Centernet人員檢測(cè)算法對(duì)本文人員數(shù)據(jù)集進(jìn)行訓(xùn)練測(cè)試和分析,得出Centernet人員檢測(cè)算法在檢測(cè)精度和速度上均優(yōu)于其他算法的結(jié)論;最后針對(duì)于Centernet人員檢測(cè)算法在實(shí)際應(yīng)用中對(duì)于大面積人員遮擋無法檢測(cè)到的問題,提出基于背景差法的改進(jìn)Centernet人員檢測(cè)算法,利用背景減除法快速確定人員大致位置的特點(diǎn),調(diào)整Centernet得分閾值的大小,使得分較少的大面積遮擋人員也可以正確被檢出,提高Centernet人員檢測(cè)算法在應(yīng)用中檢測(cè)的平均精度。
YOLO系列初代算法YOLOv1是由Joseph Redmon在2016年CVPR上首次發(fā)表,自此YOLO系列因其高效的性能而被廣泛應(yīng)用到各類實(shí)時(shí)檢測(cè)任務(wù)中。在初代YOLO中,作者將圖像分割為77的共計(jì)49個(gè)小單元格,圖片經(jīng)過YOLOv1網(wǎng)絡(luò)處理之后將會(huì)輸出一個(gè)7730的張量,其中77是指將圖片分割成7*7的網(wǎng)格,30是指預(yù)測(cè)框的寬高,中心點(diǎn)坐標(biāo),置信度以及可預(yù)測(cè)的20個(gè)物體種類,通過這樣的張量拼接方式使得YOLO可以同時(shí)完成對(duì)目標(biāo)位置和種類的預(yù)測(cè)。此后的一系列YOLO算法基于這種思想不斷在精度,速度和可識(shí)別物體種類方面進(jìn)行了改進(jìn),YOLO9000[4]將可識(shí)別物體的種類從20種增加到了9000種。由文獻(xiàn)[5]針知對(duì)于復(fù)雜環(huán)境對(duì)目標(biāo)檢測(cè)的干擾問題,通過區(qū)域劃分解決檢測(cè)區(qū)域復(fù)雜問題,通過改進(jìn)暗通道優(yōu)先圖像處理策略,解決圖像分辨率、光照等對(duì)目標(biāo)檢測(cè)的影響問題,結(jié)合SSDSN提出復(fù)雜環(huán)境下的人員檢測(cè)方法,通過對(duì)比Faster R-CNN、SSD、YOLOV2、YOLOV3及SSDSN五種算法的檢測(cè)結(jié)果,證明了SSDSN在復(fù)雜環(huán)境下的檢測(cè)能力。
3基于深度學(xué)習(xí)的視覺問答系統(tǒng)研究
2015年,學(xué)術(shù)界提出的自由形式和開放式視覺問答VQA任務(wù),逐步成為人工智能研究的熱門方向。VQA系統(tǒng)將圖像與自由形式和開放式的自然語言表述問題作為輸入,產(chǎn)生的自然語言表述答案作為輸出。圖像處理的相關(guān)技術(shù)為視覺問答提供一定的支持和借鑒,比如圖像標(biāo)記與圖像說明。和視覺問答相比,這些任務(wù)雖然需要視覺和語義知識(shí),但是說明通常不具有針對(duì)性。相比之下,視覺問答中的問題往往需要詳細(xì)的有針對(duì)性的圖像信息,所以和一般的圖像標(biāo)記與圖像說明不一樣。視覺問答(VQA)是計(jì)算機(jī)視覺、自然語言處理和人工智能交叉的新興交叉學(xué)科研究課題。給定一個(gè)開放式問題和一個(gè)參考圖像,視覺問答(VQA)的任務(wù)是預(yù)測(cè)與圖像一致的問題的答案。VQA需要對(duì)圖像有很深的理解,但是評(píng)估起來要容易得多。它也更加關(guān)注人工智能,即產(chǎn)生視覺問題答案所需的推理過程[6]。
在視覺問答中,計(jì)算機(jī)視覺技術(shù)用來理解圖像,NLP技術(shù)用來理解問題,兩者必須結(jié)合起來才能有效地回答圖像情境中的問題。這相當(dāng)具有挑戰(zhàn)性,因?yàn)閭鹘y(tǒng)上這兩個(gè)領(lǐng)域是使用不同的方法和模型來解決各自任務(wù)的。給定一張圖片,如果想要機(jī)器以自然語言來回答關(guān)于這張圖片的某一個(gè)問題,那么,機(jī)器對(duì)圖片的內(nèi)容、問題的含義和意圖以及相關(guān)的常識(shí)都需要有一定的理解。在實(shí)際應(yīng)用中,針對(duì)信息中大量的圖片,采用視覺問答系統(tǒng)就可以使用機(jī)器來采集相應(yīng)有用的信息,減少了人的工作量。近年來,由于圖形的強(qiáng)大表現(xiàn)力,用機(jī)器學(xué)習(xí)分析圖形的研究越來越受到關(guān)注,圖神經(jīng)網(wǎng)絡(luò)是基于深度學(xué)習(xí)的方法,在圖域上運(yùn)行卷積神經(jīng)網(wǎng)絡(luò)。由于其令人信服的性能和高可解釋性,GNN最近已成為一種廣泛應(yīng)用的圖形分析方法,其側(cè)重于分類、鏈路預(yù)測(cè)和聚類。在視覺問答中,圖像中的目標(biāo)可視為圖的節(jié)點(diǎn),節(jié)點(diǎn)間基于問題的聯(lián)系可視為邊。綜上,在聯(lián)合嵌入模型的基礎(chǔ)上結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò),加強(qiáng)圖像目標(biāo)和問題間的聯(lián)系,通過圖網(wǎng)絡(luò)強(qiáng)大的分類能力,以提高視覺問答的準(zhǔn)確率[7]。
4基于深度學(xué)習(xí)的物體檢測(cè)系統(tǒng)研究
人類的視覺系統(tǒng)能夠迅速地、有選擇地從視覺場(chǎng)景中檢測(cè)出感興趣的目標(biāo)或者具有顯著特征的物體,并根據(jù)更高層次的視覺任務(wù)目的對(duì)它們進(jìn)行處理和理解,從而實(shí)現(xiàn)相應(yīng)的行為或決策。將人類這種選擇性視覺注意機(jī)制引入到計(jì)算機(jī)視覺的信息處理中,可以有效地減少視覺計(jì)算所需處理的數(shù)據(jù)量、加速整個(gè)處理過程,并進(jìn)一步方便更高層次視覺任務(wù)的處理,因而該方面的研究受到學(xué)術(shù)界的廣泛關(guān)注并應(yīng)用到計(jì)算機(jī)視覺的各個(gè)領(lǐng)域。
人工神經(jīng)網(wǎng)絡(luò)被認(rèn)為是一種以簡(jiǎn)化的方式模仿人類大腦并行計(jì)算機(jī)制的數(shù)學(xué)模型,人們同樣試圖建立一些計(jì)算模型來模仿人類視覺系統(tǒng)注意機(jī)制,以實(shí)現(xiàn)選擇性地專注于一些與視覺任務(wù)目的相關(guān)的事物而忽略其他事物,從而可以利用有限的計(jì)算資源來快速完成視覺場(chǎng)景的處理和理解等過程[8]。
基于深度學(xué)習(xí)的顯著性物體檢測(cè)方法,需要對(duì)模型進(jìn)行訓(xùn)練,因此需要大量的樣本圖片及其對(duì)應(yīng)的標(biāo)簽。雖然在人工標(biāo)注時(shí)耗費(fèi)大量的時(shí)間,以及在網(wǎng)絡(luò)訓(xùn)練和和參時(shí)也花費(fèi)一定的時(shí)間,但是一旦將網(wǎng)絡(luò)模型訓(xùn)練好,可以適用于較為復(fù)雜場(chǎng)景下的顯著性物體檢測(cè),其性能明顯優(yōu)于傳統(tǒng)的顯著性物體檢測(cè)方法。目前,大多數(shù)的基于深度學(xué)習(xí)的顯著性物體檢測(cè)方法都是采取全監(jiān)督的方式,即需要大量的樣本進(jìn)行訓(xùn)練;按照其網(wǎng)絡(luò)結(jié)構(gòu),一般可以將這些方法分為基于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的方法和基于完全卷積神經(jīng)網(wǎng)絡(luò)的方法。雖然基于完全卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測(cè)方法相比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測(cè)方法能更好地保存空間信息,但經(jīng)過卷積、下采樣和上采樣后,最終的特征圖喪失了顯著物體的一些細(xì)節(jié),在一定程度上影響了檢測(cè)的精度。因此,在此基礎(chǔ)上,基于復(fù)雜的特征融合網(wǎng)絡(luò)結(jié)構(gòu)被提出,如將底層特征和高層特征征行連接,獲得更加豐富的語義信息;在文獻(xiàn)[9]中,作者加到了注意力機(jī)制,來進(jìn)行更加精確的顯著目標(biāo)檢測(cè),從而克服之前的網(wǎng)絡(luò)模型的缺點(diǎn),提高模型的檢測(cè)精度。
5總結(jié)與展望
對(duì)于人員檢測(cè),由于實(shí)際監(jiān)控場(chǎng)景的復(fù)雜性,算法在人員檢測(cè)的過程中不可避免地會(huì)存在一些誤報(bào),以后可以從主干網(wǎng)絡(luò)入手,對(duì)于人員的特征進(jìn)行更加精準(zhǔn)的提取,從而進(jìn)一步提升算法的檢測(cè)性能。另一方面,由于存在數(shù)據(jù)較少、目標(biāo)標(biāo)注引入干擾背景的問題, DE-YOLO檢測(cè)的精確度提升會(huì)遇到瓶頸,同時(shí)網(wǎng)絡(luò)結(jié)構(gòu)如何進(jìn)一步的壓縮和裁剪也是一個(gè)值得研究的方向, 后期的工作將針對(duì)這些問題進(jìn)入深入的研究。
對(duì)于智能視覺問答系統(tǒng),作為需要視覺理解與推理能力的、融合計(jì)算機(jī)視覺以及自然語言處理的視覺問答VQA,它的進(jìn)步在計(jì)算機(jī)視覺的發(fā)展和自然語言處理的能力提高的基礎(chǔ)上還有著更高的要求,即對(duì)圖像的理解——在圖像處理的基礎(chǔ)能力,如識(shí)別、檢測(cè)等的基礎(chǔ)上還要學(xué)習(xí)知識(shí)與推理的能力。需要提高模型的精度,提高回答問題的粒度。然而,這條路還有很長(zhǎng)的距離要走,一個(gè)能夠真正理解圖像、學(xué)習(xí)到知識(shí)和推理能力的VQA模型才是最終目標(biāo)。
對(duì)于物體檢測(cè),由文獻(xiàn)[8]知顯著性物體檢測(cè)仍然是一個(gè)非常具有挑戰(zhàn)性的工作,具有十分重要的研究?jī)r(jià)值。目前,顯著性物體檢測(cè)的首選方法是基于深度學(xué)習(xí)的方法,具有較高的檢測(cè)精度,可適應(yīng)于復(fù)雜場(chǎng)景下的物體檢測(cè)。未來,顯著性物體檢測(cè)將更加關(guān)注網(wǎng)絡(luò)模型的大小、檢測(cè)的精度以及實(shí)時(shí)性方面,作為視覺任務(wù)的前序的預(yù)處理,為各種實(shí)際的應(yīng)用任務(wù)服務(wù)。
基于深度學(xué)習(xí)的機(jī)器視覺和物聯(lián)網(wǎng)技術(shù)近年來受到研究人員和商業(yè)領(lǐng)域的廣泛關(guān)注,這兩項(xiàng)技術(shù)對(duì)我們的生活、城市和世界都產(chǎn)生了積極的影響。物聯(lián)網(wǎng)技術(shù)和深度學(xué)習(xí)構(gòu)成了一個(gè)數(shù)據(jù)生產(chǎn)者-消費(fèi)者鏈,其中物聯(lián)網(wǎng)技術(shù)生成由深度學(xué)習(xí)模型分析的原始數(shù)據(jù),深度學(xué)習(xí)模型產(chǎn)生高層次的分析,反饋給物聯(lián)網(wǎng)系統(tǒng),以微調(diào)和改進(jìn)服務(wù)。
參考文獻(xiàn):
[1]孫志軍;薛磊;許陽明;王正;深度學(xué)習(xí)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2012年08期
[2]張馳;關(guān)于深度學(xué)習(xí)與計(jì)算機(jī)視覺;雷鋒網(wǎng);2016年5月
[3]滕悅;工業(yè)復(fù)雜環(huán)境下人員監(jiān)測(cè)系統(tǒng)研究與設(shè)計(jì);遼寧科技大學(xué)
[4]REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA. IEEE, 2017: 6517-6525
[5]馬金濤;基于深度學(xué)習(xí)的復(fù)雜環(huán)境目標(biāo)檢測(cè)方法研究;哈爾濱理工大學(xué);2021年第09期
[6]葛夢(mèng)穎;孫寶山;基于深度學(xué)習(xí)的視覺問答系統(tǒng);天津工業(yè)大學(xué);2096-4706(2019)11-0011-04
[7]龔安;丁磊;姚鑫杰;基于圖卷積網(wǎng)絡(luò)的視覺問答研究;中國(guó)石油大學(xué)(華東); 1672-9722.2022.01.026
[8]蔣峰嶺;孔斌;錢晶;王燦;楊靜;顯著性物體檢測(cè)研究綜述;1000-8829(2021)01-0001-15
[9]CHENSH,WANGB,TANXL,etal.Embeddingattentionandresidualnetworkforaccuratesalientobjectdetection[J].IEEETransactionsonCybernetics,2020,50(5):2050-2062.
總結(jié)
以上是生活随笔為你收集整理的深度学习在机器视觉应用领域的最新研究综述(物联网技术应用大作业)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2015年最大的台风叫什么名字(2015
- 下一篇: 机器学习算法、深度学习算法涉及的数学知识