泰迪杯论文B题(特等奖)
目錄
一、簡(jiǎn)介
1.1研究背景及研究現(xiàn)狀
1.2研究任務(wù)
1.2.1絕緣子串珠分割
1.2.2絕緣子自爆識(shí)別和定位
1.3技術(shù)路線流程圖
1.3.1模型訓(xùn)練流程圖
1.3.2模型測(cè)試流程圖
二、基本理論
2.1卷積神經(jīng)網(wǎng)絡(luò)
2.2全卷積神經(jīng)網(wǎng)絡(luò)
2.3殘差連接
三、數(shù)據(jù)預(yù)處理
3.1掩膜圖像二值化
3.2圖像切分
3.3數(shù)據(jù)擴(kuò)增
3.4數(shù)據(jù)集調(diào)整
3.5預(yù)處理流程圖
四、絕緣子串珠分割
4.1圖像分割算法
4.1.1Unet 網(wǎng)絡(luò)
4.1.2Segnet 網(wǎng)絡(luò)
4.1.3U-Segnet 網(wǎng)絡(luò)
4.1.4改進(jìn)的U-Segnet 網(wǎng)絡(luò)
4.2圖像分割技術(shù)路線
五、連通區(qū)域檢測(cè)
5.1連通域標(biāo)記與面積計(jì)算
5.2面積閾值的計(jì)算
六、圖像分割結(jié)果分析
6.1實(shí)驗(yàn)環(huán)境
6.2評(píng)價(jià)指標(biāo)
6.3實(shí)驗(yàn)過程及結(jié)果分析
6.3.1訓(xùn)練超參數(shù)設(shè)置
6.3.3 結(jié)果分析
七、目標(biāo)檢測(cè)數(shù)據(jù)預(yù)處理
7.1數(shù)據(jù)采集
7.2人工標(biāo)注
7.3絕緣子提取
7.4數(shù)據(jù)增強(qiáng)
八、目標(biāo)檢測(cè)
8.1YOLO v3 算法基本原理
8.2目標(biāo)檢測(cè)技術(shù)路線
九、實(shí)驗(yàn)及結(jié)果分析
9.1評(píng)價(jià)指標(biāo)
9.2實(shí)驗(yàn)過程及結(jié)果分析
十、總結(jié)與展望
10.1本文工作總結(jié)
10.2未來工作展望
參考文獻(xiàn)
附錄 26
一、簡(jiǎn)介
1.1研究背景及研究現(xiàn)狀
為了保證輸電線路的安全、可靠運(yùn)行,電網(wǎng)運(yùn)行部門需要定期對(duì)輸電線變電系統(tǒng)進(jìn)行巡檢、維修以及維護(hù)來確保消除故障或者隱患。隨著我國經(jīng)濟(jì)的高速發(fā)展,對(duì)電力輸電網(wǎng)設(shè)備等基礎(chǔ)設(shè)施的安全運(yùn)營(yíng)也提出了更高的要求。架空線路巡檢作為保障輸配電網(wǎng)正常運(yùn)行的重要手段之一,一直以來都面臨著網(wǎng)線分布廣、設(shè)施布置復(fù)雜,巡線作業(yè)強(qiáng)度大、周期長(zhǎng),部分區(qū)域自然環(huán)境復(fù)雜惡劣等問題。傳統(tǒng)的電網(wǎng)巡查方式是通過人工進(jìn)行巡檢的,該方法存在以下幾個(gè)問題。
① 勞動(dòng)強(qiáng)度大,工作效率低,在危險(xiǎn)地段會(huì)危及到巡查工人的生命安危。
② 人工錄入數(shù)據(jù)量大,而且錄入過程容易出錯(cuò)。
③ 對(duì)于工人是否巡查到位無法進(jìn)行有效的管理,巡查質(zhì)量不能得到保障
近年來由于無人機(jī)或者智能機(jī)器人技術(shù)的飛速發(fā)展,考慮通過拍攝的大量電力設(shè)備及線路的現(xiàn)場(chǎng)圖片代替人工巡檢,其基本工作流程如下。
① 劃定無人機(jī)工作區(qū)域,設(shè)定巡查時(shí)間。
② 無人機(jī)飛達(dá)指定區(qū)域,進(jìn)行圖片拍攝(要求盡可能達(dá)到 360°全方位)。
③ 分析無人機(jī)拍攝的圖片,并進(jìn)行問題標(biāo)注,反饋至調(diào)度中心。
④ 調(diào)度中心根據(jù)問題,安排對(duì)應(yīng)人員進(jìn)行檢修。
但是由于無人機(jī)拍攝圖片數(shù)目多(單個(gè)高架塔拍攝圖像大于 300 張),尺寸大(4096*2160),人工進(jìn)行一張圖片標(biāo)注就需要 5-10 分鐘,工作量巨大。同時(shí)執(zhí)行標(biāo)注工作的相關(guān)人員極易用眼疲勞,從而導(dǎo)致漏標(biāo),錯(cuò)標(biāo)。鑒于以上情況, 考慮使用圖像處理與機(jī)器學(xué)習(xí)(深度學(xué)習(xí))的方法,對(duì)圖片進(jìn)行標(biāo)注。
1.2研究任務(wù)
架空輸電線路巡視主要巡視內(nèi)容包括:桿塔、導(dǎo)線及避雷線、導(dǎo)線及避雷線的固定與鏈接、絕緣子、拉線、桿上開關(guān)設(shè)備、沿線路附近的其他工程等 7 大項(xiàng)內(nèi)容。以上 7 大項(xiàng)內(nèi)容中的每一項(xiàng)都還有子項(xiàng),檢查內(nèi)容繁多,流程繁瑣。為了能夠先行探索出切實(shí)有效的步驟,本次任務(wù)以絕緣子巡視中的絕緣子自爆這一故障為目標(biāo),主要實(shí)現(xiàn)以下兩部分內(nèi)容。
1.2.1絕緣子串珠分割
由于無人機(jī)圖片較大一般為(4096*2160),絕緣子串珠占據(jù)圖片中很小的一部分區(qū)域,需要設(shè)計(jì)圖像分割算法,對(duì)絕緣子串珠坐在的區(qū)域進(jìn)行分割。參賽者需要標(biāo)記出所給樣例每幅圖像中的標(biāo)記絕緣子串珠區(qū)域的掩模圖像。掩模區(qū)域僅整個(gè)絕緣子串珠。
1.2.2絕緣子自爆識(shí)別和定位
根據(jù)分割圖像初步識(shí)別絕緣子所在的位置,并對(duì)絕緣子串珠進(jìn)行分割,而后參賽者根據(jù)所給出的標(biāo)記樣本的 Ground Truth 構(gòu)建自爆絕緣子識(shí)別模型。參賽者利用訓(xùn)練模型對(duì)圖像中的自爆絕緣子位置進(jìn)行檢測(cè),并利用 BoundingBox 對(duì)其進(jìn)行標(biāo)記。自爆標(biāo)記需包括自爆位置周圍 2 個(gè)完好絕緣子。
1.3技術(shù)路線流程圖
1.3.1模型訓(xùn)練流程圖
圖 1 模型訓(xùn)練流程圖
1.3.2模型測(cè)試流程圖
圖 2 模型測(cè)試流程圖
二、基本理論
2.1卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種具有稀疏連接和權(quán)值共享的深度神經(jīng)網(wǎng)絡(luò)模型, 其權(quán)值共享的模式減少了訓(xùn)練參數(shù),降低了復(fù)雜度,使其變得簡(jiǎn)單且適應(yīng)性強(qiáng), 近年來引起眾多科學(xué)領(lǐng)域的廣泛關(guān)注。卷積神經(jīng)網(wǎng)絡(luò)直接以圖像作為輸入,避免 了傳統(tǒng)方法提取特征的過程,在圖像處理上可保留像素的空間位置關(guān)系。其網(wǎng)絡(luò) 結(jié)構(gòu)對(duì)圖像的平移、比例縮放、旋轉(zhuǎn)等其他形式的形變具有高度不變性。在卷積 層中,卷積核的作用等同于濾波器,由于 RGB 色彩模式的圖像每個(gè)通道等同于一個(gè)二維矩陣,所以卷積層通過滑動(dòng)窗口的方式將卷積核與輸入圖像的每個(gè)通道 進(jìn)行卷積操作,提取出不同類型的特征,稱為特征圖(feature map, FM),特征圖的個(gè)數(shù)和卷積核的個(gè)數(shù)相同;池化層又稱為子采樣層(sub-sampling layer),通過池化操作對(duì)數(shù)據(jù)進(jìn)行降維,縮小輸入數(shù)據(jù)規(guī)模,減少計(jì)算量,通常有最大池化、平均池化和隨機(jī)池化等計(jì)算方式;由于卷積和下采樣操作造成特征圖分辨率降低, 所以利用反卷積層通過插值運(yùn)算將特征圖恢復(fù)到輸入圖像大小,然后輸出為二維 矩陣,矩陣的值表示某個(gè)像素歸屬為某一類的概率。卷積網(wǎng)絡(luò)通過誤差反向傳播 算法周期性地更新卷積核的權(quán)重實(shí)現(xiàn)進(jìn)行求解優(yōu)化,通過卷積網(wǎng)絡(luò)模型在數(shù)據(jù)集 上的誤差和精確度確定網(wǎng)絡(luò)優(yōu)化程度。
2.2全卷積神經(jīng)網(wǎng)絡(luò)
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)只能整幅圖像進(jìn)行分類,也就是說只能解決圖像識(shí)別問題 。全卷積神經(jīng)網(wǎng)絡(luò)(FCN)與經(jīng)典的 CNN 在卷積層之后使用全連接層得到固定長(zhǎng)度的特征向量進(jìn)行分類(全聯(lián)接層 + softmax 輸出)不同,FCN 可以接受任意尺寸的輸入圖像,采用反卷積層對(duì)最后一個(gè)卷積層的 feature map 進(jìn)行上采樣, 使它恢復(fù)到輸入圖像相同的尺寸,從而可以對(duì)每個(gè)像素都產(chǎn)生了一個(gè)預(yù)測(cè), 同時(shí)保留了原始輸入圖像中的空間信息, 最后在上采樣的特征圖上進(jìn)行逐像素分類,最后逐個(gè)像素計(jì)算 softmax 分類的損失, 相當(dāng)于每一個(gè)像素對(duì)應(yīng)一個(gè)訓(xùn)練樣本,從而解決了圖像分割問題。
2.3殘差連接
在深度學(xué)習(xí)中,卷積網(wǎng)絡(luò)的深度是獲得優(yōu)異性能的重要因素,深層的網(wǎng)絡(luò)能 夠提取到更高級(jí)別的特征信息,但隨之引起的梯度彌散問題卻導(dǎo)致網(wǎng)絡(luò)無法收斂, 甚至網(wǎng)絡(luò)退化問題,即增加網(wǎng)絡(luò)層次反而會(huì)導(dǎo)致更大的誤差。為了解決該問題,文獻(xiàn)[1]通過在一個(gè)淺層網(wǎng)絡(luò)基礎(chǔ)上疊加 𝑦 = 𝑥 的恒等映射(identify mapping)達(dá)到當(dāng)增加深度時(shí)網(wǎng)絡(luò)性能保持不退化,且理論上允許訓(xùn)練任意深度的網(wǎng)絡(luò),其優(yōu)化方法基本上與網(wǎng)絡(luò)的深度獨(dú)立。圖 3 為殘差連接示意圖。左側(cè)連接為殘差連接, weight layer 為神經(jīng)網(wǎng)絡(luò)中相鄰兩層。帶有殘差連接的網(wǎng)絡(luò)輸出公式如下:
y=F(x,ωi)+W,x(1)y=F(x,{\omega_i})+W,x \qquad(1)y=F(x,ωi?)+W,x(1)
其中: F 是關(guān)于 x 和ωi{\omega_i}ωi? 的函數(shù),F=W2σ(W1x)F=W_2 \sigma(W_1x)F=W2?σ(W1?x);WiW_iWi?代表神經(jīng)網(wǎng)絡(luò)第iii層的權(quán)值; ? σ\sigmaσ代表激活函數(shù) ReLu; x 是第一層的輸入; y 為輸出。
圖 3 殘差連接示意圖
當(dāng)殘差連接的輸入和輸出維度相同時(shí),WsW_sWs? 退化為 1,維度不同時(shí),通過方陣WsW_sWs?變換到相同維度。
對(duì)于殘差y?xy-xy?x,如果等于 0,則 y=xy=xy=x 就是恒等映射,沒有引入額外的參數(shù)和計(jì)算復(fù)雜度,神經(jīng)網(wǎng)絡(luò)的負(fù)擔(dān)不會(huì)增加;如果不等于 0 但逼近 0,則整個(gè)網(wǎng)絡(luò)只需要學(xué)習(xí)輸入/輸出差別的部分即可,簡(jiǎn)化學(xué)習(xí)目標(biāo)。因此,使用殘差連接能夠保證神經(jīng)單元的整體輸出結(jié)果向原始輸入靠攏,最大程度地保留主要特征,從而使卷積網(wǎng)絡(luò)逼近恒等映射,達(dá)到最小化誤差的目的。
三、數(shù)據(jù)預(yù)處理
3.1 掩膜圖像二值化
通過對(duì)原始掩膜圖像的研究發(fā)現(xiàn),原始的掩膜圖像并不是二值圖像,如果直接用原始的圖像進(jìn)行模型的訓(xùn)練可能對(duì)影響模型的訓(xùn)練效果,所以首先對(duì)原始的掩膜圖像進(jìn)行的二值化操作,使得掩膜圖像像素值只有 0 和 255 兩種像素。
3.2圖像切分
由于無人機(jī)圖片尺寸過大且不統(tǒng)一,不可直接將其作為神經(jīng)網(wǎng)絡(luò)的輸入。而直接對(duì)原圖像進(jìn)行resize 操作會(huì)導(dǎo)致圖片失真影響訓(xùn)練效果,為了解決這一問題, 本文采用圖像切分的方法對(duì)原圖像進(jìn)行處理。首先將原圖像長(zhǎng)寬都 resize 到 256的倍數(shù),然后用 256×256256\times256256×256 的滑動(dòng)窗口對(duì)原圖像進(jìn)行切割,并以原圖像名+每幅圖像的位置對(duì)切割后的圖像進(jìn)行命名,便于后續(xù)對(duì)圖像進(jìn)行還原。例如:子圖001_10_6.jpg 表示為原圖像 001.jpg 的第 10 行第 6 列的位置。原圖和其切割后的圖像分別如圖 4 和圖 5 所示。
圖 4 原始圖像
圖 5 切分后的圖像
3.3數(shù)據(jù)擴(kuò)增
原始數(shù)據(jù)集共有 40 張無人機(jī)圖片,經(jīng)過圖像切分后數(shù)據(jù)集變?yōu)榱?14459 個(gè)子圖片,對(duì)于深度學(xué)習(xí)項(xiàng)目來說,數(shù)據(jù)集是不夠的。在此我們通過 OpenCV 對(duì)切割后的原圖和標(biāo)注圖像進(jìn)行數(shù)據(jù)集擴(kuò)張?zhí)幚?#xff0c;主要有隨機(jī)調(diào)整大小(讓出邊緣),圖像四周拼接邊緣,旋轉(zhuǎn)圖像(隨機(jī)角度),仿射變換(平移),縮放,添加噪聲(加入高斯噪聲,椒鹽噪聲)等方法將數(shù)據(jù)集擴(kuò)張到了原來的 8 倍。
圖 6 數(shù)據(jù)增強(qiáng)對(duì)比圖
3.4數(shù)據(jù)集調(diào)整
經(jīng)過圖像切分和數(shù)據(jù)擴(kuò)增后數(shù)據(jù)集被擴(kuò)增到了 115672 張子圖片,由于絕緣子占整張圖片的中的很小的一部分,所以在所有的數(shù)據(jù)集中沒有目標(biāo)(即絕緣子) 的圖片占絕大多數(shù),如果把這些圖片都放入模型中進(jìn)行訓(xùn)練,可能會(huì)導(dǎo)致模型對(duì)背景的識(shí)別能力大于對(duì)絕緣子的識(shí)別能力,導(dǎo)致絕緣子的分割效果不佳。因此, 我們需要將數(shù)據(jù)集進(jìn)行調(diào)整,使得數(shù)據(jù)集更加平衡。通過對(duì)分割后的標(biāo)簽圖像找出所有帶有目標(biāo)的圖片一共 15718 張子圖片,然后在所有只含背景圖片中隨機(jī)選
出 15718 張圖片,構(gòu)成新的數(shù)據(jù)集。
表 1 數(shù)據(jù)集大小變換
3.5預(yù)處理流程圖
圖 7 圖像分割預(yù)處理流程圖
四、絕緣子串珠分割
4.1圖像分割算法
在深度神經(jīng)網(wǎng)絡(luò)中使分辨率降低的特征提取部分可以稱為編碼器,恢復(fù)到原圖片分辨率的稱為解碼器,這類網(wǎng)絡(luò)例如 Unet[2]和 Segnet[4]。
4.1.1Unet 網(wǎng)絡(luò)
基于全卷積神經(jīng)網(wǎng)絡(luò)(FCN),文獻(xiàn)[2],提出了一種 U 行結(jié)構(gòu)的全卷機(jī)神經(jīng)網(wǎng)絡(luò)—Unet。Unet 神經(jīng)網(wǎng)絡(luò)模型被廣泛的應(yīng)用到遙感影像和醫(yī)學(xué)影像的語義分割, 該模型是一種編碼解碼網(wǎng)絡(luò)結(jié)構(gòu)。其網(wǎng)絡(luò)結(jié)構(gòu)如圖 8 所示,它主要由特征提取部分和上采用還原部分組成,特征提取部分重復(fù)地使用了 2 個(gè) 3×33\times33×3 卷積層和一個(gè)2×22\times22×2 最大池化層。上采樣還原部分使用了兩倍的上采樣和兩個(gè)3×33\times33×3卷積層,每上采樣一次都和特征提取部分與之對(duì)應(yīng)的特征圖進(jìn)行拼接,其中每?jī)蓚€(gè) 3×33\times33×3 卷積層中第一個(gè) 3×33\times33×3 卷積層的作用是降低特征圖的數(shù)量和提取特征。最后采用Softmax 分類器進(jìn)行像素級(jí)的分類,達(dá)到語義分割效果。
圖 8 Unet 網(wǎng)絡(luò)結(jié)構(gòu)圖
4.1.2Segnet 網(wǎng)絡(luò)
基于全卷機(jī)神經(jīng)網(wǎng)絡(luò)文獻(xiàn)[4]提出了一種新的、實(shí)用的用于語義像素分割的深度全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) SegNet。Segnet 神經(jīng)網(wǎng)絡(luò)是一種以深度卷積為基礎(chǔ),融合編碼-解碼結(jié)構(gòu)(encoder-decoder)的深度學(xué)習(xí)網(wǎng)絡(luò)。編碼器網(wǎng)絡(luò)和解碼器網(wǎng)絡(luò)的對(duì)稱結(jié)構(gòu)構(gòu)成了 Segnet 的主要部分,除此之外還有一些輸出層。編碼器網(wǎng)絡(luò)由用于圖像分類的 VGG16 網(wǎng)絡(luò)的前 13 層組成,對(duì)應(yīng)圖 9 對(duì)稱結(jié)構(gòu)的左半部分,與完整的 VGG16 網(wǎng)絡(luò)相比減少了3層,這是由于整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)移除了用在特征提取層之間的全連接層,支持在編碼器的深層網(wǎng)絡(luò)輸出中保留更高分辨率的特征圖, 同時(shí)大幅度減少訓(xùn)練時(shí)參數(shù)的數(shù)量。編碼網(wǎng)絡(luò)部分包括 13 個(gè)卷積層(Convolution),其中包括與其配合的批歸一化層(Batch Normalization, BN)、激活層 Rectified Linear Unit, ReLU)及池化層(Pooling);解碼網(wǎng)絡(luò)包含相同的 13層卷積層,及與池化層對(duì)應(yīng)的上采樣層(Upsampling)。網(wǎng)絡(luò)最后通過 Softmax 分類器進(jìn)行像素點(diǎn)分類,完成語義分割。
圖 9 Segnet 網(wǎng)絡(luò)結(jié)構(gòu)圖
4.1.3U-Segnet 網(wǎng)絡(luò)
基于 Unet 和 Segnet 神經(jīng)網(wǎng)絡(luò)文獻(xiàn)[5]在 2018 年提出了一種全卷積神經(jīng)網(wǎng)絡(luò)(FCN),它是 SegNet 和 U-Net 兩種廣泛應(yīng)用的深度學(xué)習(xí)分割結(jié)構(gòu)的混合,用于改進(jìn)腦組織分割,網(wǎng)絡(luò)結(jié)構(gòu)如圖 10 所示。雖然基本架構(gòu)類似于 SegNet,但創(chuàng)造性地將 Unet 中的跳躍連接結(jié)構(gòu)引入 Segnet 中,這些跳躍連接有助于所提出的網(wǎng)絡(luò)捕獲細(xì)粒度多尺度信息,以便更好地識(shí)別組織邊界。
圖 10 U-Segnet 網(wǎng)絡(luò)結(jié)構(gòu)圖
4.1.4改進(jìn)的 U-Segnet 網(wǎng)絡(luò)
本文基于文獻(xiàn)[5]提出的 U-Segnet 神經(jīng)網(wǎng)絡(luò)模型,提出了一種新的全卷積神經(jīng)網(wǎng)絡(luò)(FCN)模型—U-Segnet-Pro,網(wǎng)絡(luò)結(jié)構(gòu)如圖 11 所示。由于本文目的是從無人機(jī)圖像中分割出絕緣子,而由于無人機(jī)圖片較大,絕緣子串珠占據(jù)圖片中很小的 一部分區(qū)域,要想更加精確的分割出絕緣子,這就要求提取到圖片更深層更精細(xì) 的特征,即要求網(wǎng)絡(luò)達(dá)到一定的深度。然而深層的網(wǎng)絡(luò)能夠提取到更高級(jí)別的特 征信息,但隨之引起的梯度彌散問題卻導(dǎo)致網(wǎng)絡(luò)無法收斂,甚至網(wǎng)絡(luò)退化問題, 即增加網(wǎng)絡(luò)層次反而會(huì)導(dǎo)致更大的誤差。針對(duì)此問題文獻(xiàn)[1]提出了一種殘差網(wǎng)絡(luò) 結(jié)構(gòu)(Residual Network),該結(jié)構(gòu)解決了由于增加網(wǎng)絡(luò)深度導(dǎo)致模型退化這一問題。故本文為了得到更好的分割效果,在原始的 U-Segnet 網(wǎng)絡(luò)編碼部分后引入 3 個(gè)殘差塊(Resnet Block)達(dá)到增加網(wǎng)絡(luò)深度的目的。
圖 11 U-Segnet-Pro 網(wǎng)絡(luò)結(jié)構(gòu)圖
4.2圖像分割技術(shù)路線
圖 12 圖像分割技術(shù)路線
五、連通區(qū)域檢測(cè)
連通域指的是在某個(gè)區(qū)域內(nèi),任意兩個(gè)像素之間都能夠通過由這個(gè)區(qū)域內(nèi)的 像素點(diǎn)組成的路徑連接起來,并且在這個(gè)區(qū)域內(nèi)的所有像素點(diǎn)都具有相似的特征, 一幅二值圖像或者多值圖像當(dāng)中可以存在多個(gè)連通域,而且任意兩個(gè)連通域是不 重疊也不會(huì)相鄰的。連通區(qū)域標(biāo)記是一種在計(jì)算機(jī)視覺和圖像分析處理里面較為 常用的技術(shù),在目標(biāo)分割與提取、視覺跟蹤等領(lǐng)域又很多應(yīng)用,其主要用來檢測(cè) 二值圖像當(dāng)中的連通區(qū)域并標(biāo)記,連通域分析方式的使用一般基于先將前景目標(biāo) 提取出來這樣一個(gè)前提之上。
將圖像分割后得到的圖像拼接得到的完整分割圖像如圖 13 所示,可見除了絕緣子還有一些其他的地方也被分割出來了,這些地方都是一些分散的小點(diǎn),通過計(jì)算連通區(qū)域面積,再利用面積閾值即可將其去除。
圖 13 圖像分割結(jié)果
5.1連通域標(biāo)記與面積計(jì)算
從連通域的定義中可以得知,一個(gè)連通區(qū)域是由具有相同像素值的相鄰像素組成的像素集合,也正是通過“相同像素值”和“相鄰像素”這兩個(gè)條件來定位連通域并標(biāo)記每個(gè)連通域。為了保證該標(biāo)記的唯一性,以此來區(qū)別不同的連通域。對(duì)于二值圖像來說,連通性的判斷有兩種度量準(zhǔn)則,即根據(jù)像素的 4 連通和 8 連通兩種相鄰關(guān)系,4 連通域如圖 14 所示,八連通域如圖 15 所示:
在二值圖像中,把符合 4 領(lǐng)域連通域或者 8 領(lǐng)域連通域準(zhǔn)則的像素組成的區(qū)域標(biāo)記上唯一的數(shù)字,這樣的標(biāo)記就是掩碼,通常最大的掩碼代表圖像中連通域的數(shù)目。這樣一來,一幅二值圖像中的多個(gè)目標(biāo)區(qū)域就被分別賦予唯一的標(biāo)記號(hào),然后對(duì)每個(gè)掩碼所對(duì)應(yīng)的區(qū)域做相關(guān)記錄統(tǒng)計(jì)工作,把參數(shù)存儲(chǔ)到一個(gè)存儲(chǔ)空間當(dāng)中。
對(duì)一幅二值圖像來說,計(jì)算其連通域面積就是統(tǒng)計(jì)其連通域范圍內(nèi)的白色像素點(diǎn)的個(gè)數(shù),以 8 連通域任意一點(diǎn)開始為例,從該點(diǎn)向其鄰域開始掃描并延伸至圖像邊界,在擴(kuò)展延伸的同時(shí)統(tǒng)計(jì)白色像素點(diǎn)的數(shù)量,由此得到的統(tǒng)計(jì)結(jié)果就是連通域的面積并將面積值存儲(chǔ)到一個(gè)一維數(shù)組當(dāng)中。
5.2面積閾值的計(jì)算
堆的結(jié)構(gòu)可以分為大根堆和小根堆,是一個(gè)完全二叉樹,而堆排序是根據(jù)堆的這種數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)的一種排序。每個(gè)結(jié)點(diǎn)的值都小于其左孩子和右孩子結(jié)點(diǎn)的值,稱之為小根堆。如下圖
圖 16 小根堆結(jié)構(gòu)示意圖
本文采取的是時(shí)間復(fù)雜度為 0 的“小根堆”方法來確定面積閾值,思路是在存放上一節(jié)得到的連通域數(shù)組中尋找出和絕緣子串個(gè)數(shù)保持一致或者接近的 K 個(gè)最大值,再從這 K 個(gè)值當(dāng)中選擇合適的值,例如平均值或者中值作為設(shè)定的面積閾值。經(jīng)過“小根堆”方法可以得到的所需要的 K 值,此時(shí)可以對(duì)得到的 K 個(gè)值排序,本文取中值 midarea,面積閾值設(shè)定為 0.5×midarea0.5 \times midarea0.5×midarea。利用得到的面積閾值對(duì)圖 13 做閾值分割,得到的處理結(jié)果如圖 17 所示:
圖 17 連通域面積閾值分割結(jié)果
從面積濾波的結(jié)果可以看出,圖像中復(fù)雜的自然背景已經(jīng)完全被濾除,而且絕緣子串所在的區(qū)域也被保留下來了。
六、圖像分割結(jié)果分析
6.1實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)采用的機(jī)器的硬件環(huán)境如表 2 所示,軟件環(huán)境如表 3 所示。
表 2 實(shí)驗(yàn)的硬件環(huán)境
表 3 實(shí)驗(yàn)的軟件環(huán)境
6.2評(píng)價(jià)指標(biāo)
絕緣子串珠分割采用 Dice 系數(shù)進(jìn)行評(píng)價(jià),通常計(jì)算兩個(gè)樣本的相似度
dice(A,B)=2∣A∩B∣|A|+|B|dice(A,B)=\frac{2|A \cap B|}{|A|+|B|}dice(A,B)=|A|+|B|2∣A∩B∣?
其中,A 為 GroundTruth 區(qū)域即專業(yè)人士標(biāo)注的區(qū)域,B 為算法分割所得到的區(qū)域。Dice 系數(shù)取值范圍是[0,1],取值越接近 1 則越表明預(yù)測(cè)的結(jié)果與專業(yè)人士標(biāo)注的結(jié)果相符合。
6.3實(shí)驗(yàn)過程及結(jié)果分析
6.3.1訓(xùn)練超參數(shù)設(shè)置
模型訓(xùn)練的超參數(shù)設(shè)置如表 4 所示:
表 4 訓(xùn)練超參數(shù)設(shè)置
學(xué)習(xí)率(Learning rate)的大小影響參數(shù)更新的幅度,如果學(xué)習(xí)速率過大,可能會(huì)使網(wǎng)絡(luò)不能收斂,如果學(xué)習(xí)率過小,會(huì)導(dǎo)致網(wǎng)絡(luò)收斂的速度過慢。在深度學(xué)習(xí)中網(wǎng)絡(luò)參數(shù)進(jìn)行更新時(shí),開始更新的幅度較大,在接近收斂時(shí)更新幅度較小。
如果學(xué)習(xí)率為一個(gè)固定值,在網(wǎng)絡(luò)快要收斂時(shí)會(huì)導(dǎo)致越過最優(yōu)值在最小值附件波動(dòng),故在此我們?cè)谇?100 epoch 設(shè)置學(xué)習(xí)率大小為 0.001,后 100 epoch 設(shè)置為0.0001 進(jìn)行訓(xùn)練。Batch size 表示每次放入 GPU 進(jìn)行訓(xùn)練的圖片數(shù)量,這個(gè)值受網(wǎng)絡(luò)的參數(shù)量和 GPU 顯存的影響,訓(xùn)練的精度會(huì)隨著 Batch size 增大而增大, 綜合考慮在現(xiàn)有的硬件條件下設(shè)為 20。
如圖 18 所示,表示在上述超參數(shù)設(shè)置條件下,模型隨著迭代次數(shù)的增加訓(xùn)練集的損失情況。
圖 18 圖像分割損失隨迭代次數(shù)變化圖
6.3.3 結(jié)果分析
由表 5 和表 6 可知在模型的收斂速度上不如其他網(wǎng)絡(luò),但是在模型分割的效果上來看確比其他模型的效果好得多,以少許的收斂速度換取模型的精度,這在工業(yè)上是可以接受的。
表 5 模型收斂速度對(duì)比
表 6 測(cè)試結(jié)果對(duì)比
七、目標(biāo)檢測(cè)數(shù)據(jù)預(yù)處理
7.1數(shù)據(jù)采集
原始數(shù)據(jù)集大小為 40,這對(duì)目標(biāo)檢測(cè)任務(wù)來說數(shù)據(jù)量太少,為了得到較優(yōu)的模型訓(xùn)練結(jié)果,本文首先將原始的數(shù)據(jù)集進(jìn)行了擴(kuò)充。采集了 200 張圖片數(shù)據(jù),經(jīng)過人工篩選最終有 46 張圖片符合要求,初始數(shù)據(jù)擴(kuò)充到 86 張。
7.2人工標(biāo)注
由于采集到的 46 張圖片數(shù)據(jù)沒有掩膜圖像,為了不影響模型的訓(xùn)練效果和便于后續(xù)進(jìn)一步提取絕緣子,本文針對(duì)這些圖像采用人工標(biāo)注的方法,得到其掩膜圖像。使用的標(biāo)注工具為開源軟件 Labelme,其界面如圖 19 所示。
圖 19 Labelme 軟件界面
7.3絕緣子提取
為了提高模型的訓(xùn)練精度,剔除背景對(duì)模型訓(xùn)練的影響。本文采用公式(3),利用掩膜圖像對(duì)原始圖像中的絕緣子進(jìn)行了提取,將絕緣子從圖片中分割出來,再放入模型中進(jìn)行訓(xùn)練。
new_img=img×mask/255new\_img=img\times mask/255new_img=img×mask/255
其中,img 表示原始圖片像素值,mask 表示掩膜圖片像素值,new _ img 表示提取絕緣子后圖片的像素值。
效果圖如圖 20 所示:
圖 20 提取絕緣子前后圖片對(duì)比
7.4數(shù)據(jù)增強(qiáng)
經(jīng)過上述處理后,數(shù)據(jù)集被擴(kuò)增到了 86 個(gè),但是對(duì)目標(biāo)檢測(cè)任務(wù)來說還遠(yuǎn)遠(yuǎn)不夠。故在采用數(shù)據(jù)增強(qiáng)的方法對(duì)數(shù)據(jù)集進(jìn)行進(jìn)一步的擴(kuò)增。數(shù)據(jù)增強(qiáng)方法為對(duì)原始圖片分別進(jìn)行隨機(jī)平移,旋轉(zhuǎn) 90 度、180 度、270 度,沿 x 軸翻轉(zhuǎn),沿 y 軸翻轉(zhuǎn),顏色通道變換,將數(shù)據(jù)集擴(kuò)增了 8 倍。如圖 21 所示
圖 21 目標(biāo)檢測(cè)數(shù)據(jù)增強(qiáng)對(duì)比圖
數(shù)據(jù)集大小變化如下:
表 7 目標(biāo)檢測(cè)數(shù)據(jù)集大小變化
八、目標(biāo)檢測(cè)
8.1YOLO v3 算法基本原理
YOLO(you only look once,YOLO)文獻(xiàn)[6]是一種基于深度神經(jīng)網(wǎng)絡(luò)算法的對(duì)象識(shí)別和定位算法,將目標(biāo)檢測(cè)歸類于回歸問題,將圖片劃分為若干網(wǎng)格,在每個(gè)網(wǎng)格上通過候選框預(yù)測(cè),最終輸出每個(gè)候選框預(yù)測(cè)的類別概率和坐標(biāo)。其特點(diǎn)是運(yùn)行速度快,可以用于實(shí)時(shí)系統(tǒng)。在保持速度優(yōu)勢(shì)的前提下,提升了預(yù)測(cè)精度,尤其是加強(qiáng)了對(duì)小物體的識(shí)別能力。這與絕緣子缺陷檢測(cè)的應(yīng)用極為契合。
在基本的圖像特征提取方面,YOLO v3 采用了 Darknet-53 網(wǎng)絡(luò)結(jié)構(gòu),如圖 22 所示,它含有 53 個(gè)卷積層,同時(shí)借鑒殘差網(wǎng)絡(luò)(residual network)[1],在卷積層之間設(shè)置了快捷鏈路(shortcut connections)。
圖 22 Darknet-53 網(wǎng)絡(luò)結(jié)構(gòu)
Darknet-53 網(wǎng)絡(luò)采用 256×256×3 作為輸入,每個(gè)殘差組件(residual)有 2 個(gè)卷積層和一個(gè)快捷鏈路,如圖 23 所示。
圖 23 殘差組件
通過引入殘差組件,將前若干層的數(shù)據(jù)輸出直接跳過中間層而引入到后面數(shù)據(jù)層的輸入部分,后層的輸入特征將有一部分來自其前面某一層的線性貢獻(xiàn)。
8.2目標(biāo)檢測(cè)技術(shù)路線
圖 24 目標(biāo)檢測(cè)技術(shù)路線
九、實(shí)驗(yàn)及結(jié)果分析
9.1評(píng)價(jià)指標(biāo)
在此任務(wù)中將精度定義為,測(cè)試集中檢測(cè)出來的缺陷框總數(shù)占總?cè)毕菘虻谋戎亍>唧w公式如下所示。
ACC=Test_NumTotal_Num(4)ACC=\frac{Test\_Num}{Total\_Num}\qquad(4)ACC=Total_NumTest_Num?(4)
其中,ACC 指的是精確度,Test _ Num 指的是測(cè)試集中檢測(cè)出來的缺陷框總數(shù), Total _ Num 指的是總?cè)毕菘驍?shù)量。
絕緣子自爆區(qū)域評(píng)價(jià)采用 IOU,IOU 表示產(chǎn)生的候選框(Candidate Bound) 與原標(biāo)記框(Ground Truth Bound)的交疊率或者說重疊度,也就是它們的交集與并集的比值。相關(guān)度越高該值。最理想情況是完全重疊,即比值為 1。
IOU=area(C)∩area(G)area(C)∪area(G)(5)IOU=\frac{{area(C)}\cap{area(G)}}{ area(C) \cup area(G)} \qquad(5)IOU=area(C)∪area(G)area(C)∩area(G)?(5)
9.2實(shí)驗(yàn)過程及結(jié)果分析
通過對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)增,本文共獲得 688 張可供訓(xùn)練的絕緣子圖片。數(shù)據(jù)集中包含一串或多串絕緣子,可根據(jù)絕緣子是否存在缺陷的情況將其標(biāo)注為正樣本或負(fù)樣本。進(jìn)一步將數(shù)據(jù)集按 9:1 劃分,其中訓(xùn)練集占 90%,測(cè)試集占 10%。
本文的實(shí)驗(yàn)環(huán)境如表2 和表3 所示,訓(xùn)練階段采用異步隨機(jī)梯度下降法(SDG), 動(dòng)量項(xiàng)設(shè)置為 0.9,權(quán)值的初始學(xué)習(xí)率設(shè)置為 0.001,衰減系數(shù)設(shè)置為 0.0005,采用多尺度訓(xùn)練,歷時(shí) 2 天,模型的整體損失值穩(wěn)定在 4.0 左右, 模型的預(yù)測(cè)示例如圖 25 所示。
圖 25 模型預(yù)測(cè)結(jié)果示例
YOLO v3 模型與 SSD 模型測(cè)試結(jié)果對(duì)比如表 8 所示,可見 YOLO v3 算法不論是在精度還是 IOU 值大小上均超過 SSD 算法,故 YOLO v3 算法更適合絕緣子的缺陷檢測(cè)任務(wù)。
表 8 測(cè)試結(jié)果及算法對(duì)比
本文也做過直接將沒有分割出絕緣子的原始圖片放入模型中訓(xùn)練,結(jié)果如表9 所示,由表可知,將絕緣子從原始圖片中分割出來,大大提高了模型檢測(cè)的精度和檢測(cè) IOU 值。
表 9 是否分割出絕緣子結(jié)果對(duì)比
十、總結(jié)與展望
10.1本文工作總結(jié)
本文首先分析了現(xiàn)階段電力系統(tǒng)人工巡線的弊端和無人機(jī)電力巡檢的應(yīng)用研究?jī)r(jià)值,然后對(duì)國內(nèi)外對(duì)航拍圖像中絕緣子“自爆”特征識(shí)別的研究現(xiàn)狀做了說明,介紹了本課題的研究意義與價(jià)值,以航拍圖像中輸電線路的絕緣子“自爆”現(xiàn)象為研究目標(biāo)。在傳統(tǒng)計(jì)算機(jī)視覺及圖像處理相關(guān)技術(shù)的絕緣子“自爆”特征識(shí)別算法的比較基礎(chǔ)上,巧妙的采用語義分割與目標(biāo)檢測(cè)結(jié)合的方式,大大提高了絕緣子“自爆”檢測(cè)的精度。本文所做的工作主要包括以下三個(gè)方面:
1.分析了傳統(tǒng)的人工巡檢存在的一些問題,然后針對(duì)這些問題,提出了用無人機(jī)電力巡檢結(jié)合圖像處理與機(jī)器學(xué)習(xí)(深度學(xué)習(xí))的方法,對(duì)圖片進(jìn)行標(biāo)注。
2.本文首先直接將原始圖像放入 YOLO v3 模型中進(jìn)行模型的訓(xùn)練,發(fā)現(xiàn)訓(xùn)練出來的模型在測(cè)試集上的精度較低,原因是無人機(jī)拍攝的絕緣子圖片存在背景復(fù)雜、背景與絕緣子的區(qū)分度低、絕緣子種類繁多、數(shù)據(jù)集覆蓋面窄等問題。針對(duì)這些問題本文提出先將絕緣子從原始圖片中分割出來, 然后再利用 YOLO v3 模型進(jìn)行訓(xùn)練。
3.將絕緣子從原始圖片中分割出屬于圖像分割中的語義分割,經(jīng)過多個(gè)模型的對(duì)比本文使用的語義分割模型是 U-Segnet-Pro,這個(gè)模型是在 U- Segnet 的基礎(chǔ)上增加網(wǎng)絡(luò)深度并加入殘差塊構(gòu)成。在經(jīng)過語義分割后的圖片除了含有絕緣子外,還有一些其他的“雜點(diǎn)”,為了得到更加純凈的絕緣子串,再采用連通區(qū)域面積濾波對(duì)圖片進(jìn)行小連通區(qū)域的剔除。得到分割出來的掩膜圖后,結(jié)合原始圖像即可將絕緣子分割出來。最后將分割后的絕緣子圖片帶入 YOLO v3 模型中訓(xùn)練即得到精度較高絕緣子“自爆” 檢測(cè)模型。
10.2未來工作展望
雖然本文訓(xùn)練出來的模型在測(cè)試集上取得了不錯(cuò)的效果,但想要真正使用到實(shí)際生活中,仍然具有一定的局限性。
主要有以下三個(gè)方面:
1.使用本文提出來的方法對(duì)絕緣子“自爆”進(jìn)行檢測(cè),需要先使用圖像分割模型將絕緣子從原始圖像中分割出來,再利用目標(biāo)檢測(cè)模型進(jìn)行檢測(cè)。相比傳統(tǒng)的檢測(cè)方法而言,模型的實(shí)時(shí)性較低,所以這是未來要研究和解決的一個(gè)問題。
2.在本文的第五個(gè)部分連通區(qū)域檢測(cè)中,進(jìn)行連通區(qū)域面積閾值分割時(shí),有少量的圖片,并不能剛好只剩下絕緣子部分,會(huì)含有部分背景區(qū)域,這個(gè)背景區(qū)域可能對(duì)模型的訓(xùn)練結(jié)果產(chǎn)生一定的影響,未來在閾值取值部分可進(jìn)行深入研究。
3.輸電線路所處環(huán)境復(fù)雜多變,本文提出的絕緣子“自爆”檢測(cè)模型,所使用的數(shù)據(jù)集都是比較清晰、明亮的數(shù)據(jù),使用這種數(shù)據(jù)訓(xùn)練出來的模型的魯棒性不高,在陰雨天,或者是光線較暗的惡劣環(huán)境下對(duì)模型的精度會(huì)有一定的影響。所以提出能夠在惡劣環(huán)境仍然具有較好適應(yīng)性和穩(wěn)定性的識(shí)別算法問題是未來研究的一個(gè)方向。
參考文獻(xiàn)
[1]Deep residual learning for image recognition. He K,Zhang X,Ren S,et al. IEEE Conference on Computer Vision and Pattern Recognition . 2016
[2]U-Net:Convolutional Networks for Biomedical Image Segmentation.
Ronneberger O,Fischer P,Brox T. . 2015
[3]Fully convolutional networks for semantic segmentation. Long J,Shelhamer E,Darrell T. IEEE Transactions on Patern Analysis and Machine Intelligence . 2014
[4]SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation. Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla, Senior Member, IEEE . 2016
[5]U-SEGNET: FULLY CONVOLUTIONAL NEURAL NETWORK BASED AUTOMATED BRAIN TISSUE SEGMENTATION TOOL. Pulkit Kumar,Pravin Nagar,Chetan Arora,Anubha Gupta,Indraprastha Institute of Information Technology-Delhi (IIIT-Delhi), Delhi, India . 2018
[6]YOLOv3: An Incremental Improvement. Joseph Redmon, Ali Farhadi,University of Washington.2018
[7]王兵,李文璟,唐歡.改進(jìn) Yolo v3 算法及其在安全帽檢測(cè)中的應(yīng)用[J/OL].計(jì)算機(jī)工程與應(yīng)用:1-11[2020-05-
03].http://kns.cnki.net/kcms/detail/11.2127.TP.20200225.1117.002.html.
[8]鞠默然,羅海波,王仲博,何淼,常錚,惠斌.改進(jìn)的 YOLO V3 算法及其在小目標(biāo)檢測(cè)中的應(yīng)用[J].光學(xué)學(xué)報(bào),2019,39(07):253-260.
[9]張凱航,冀杰,蔣駱,周顯林.基于 SegNet 的非結(jié)構(gòu)道路可行駛區(qū)域語義分割[J]. 重慶大學(xué)學(xué)報(bào),2020,43(03):79-87.
[10]楊凱,孫志毅,王安紅,劉瑞珍,王銀,孫前來,康曉麗.基于 YOLO 網(wǎng)絡(luò)系統(tǒng)的材料缺陷目標(biāo)檢測(cè)方法研究[J/OL].系統(tǒng)科學(xué)學(xué)報(bào),2020(03):70-75[2020-05- 03].http://kns.cnki.net/kcms/detail/14.1333.n.20200224.1123.028.html.
[11]林志成, 繆希仁, 江灝, 陳靜, 劉欣宇, 莊勝斌.基于深度卷積神經(jīng)網(wǎng)絡(luò)的輸電線路防鳥刺部件識(shí)別與故障檢測(cè)[J/OL].電網(wǎng)技術(shù):1-11[2020-05-
03].https://doi.org/10.13335/j.1000-3673.pst.2019.1775.
[12]張煥坤,李軍毅,張斌.基于改進(jìn)型 YOLO v3 的絕緣子異物檢測(cè)方法[J].中國電力,2020,53(02):49-55.
[13]羅元,王薄宇,陳旭.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)的研究綜述[J].半導(dǎo)體光電,2020,41(01):1-10.
[14]王孝余,韓冰,李丹丹,羅軍,黃勝,張杰.基于視覺的絕緣子缺陷檢測(cè)方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2019,40(12):3582-3587.
[15]楊文斌. 基于深度學(xué)習(xí)的圖像語義分割關(guān)鍵技術(shù)與方法研究[D].南京郵電大學(xué),2019.
[16]黃友文,游亞東,趙朋.融合卷積注意力機(jī)制的圖像描述生成模型[J].計(jì)算機(jī)應(yīng)用,2020,40(01):23-27.
[17]崔振超. 基于 Unet 的舌體分割算法[C]. 中國中西醫(yī)結(jié)合學(xué)會(huì)診斷專業(yè)委員會(huì).中國中西醫(yī)結(jié)合學(xué)會(huì)診斷專業(yè)委員會(huì)第十三次全國學(xué)術(shù)研討會(huì)論文集.中國中西醫(yī)結(jié)合學(xué)會(huì)診斷專業(yè)委員會(huì):中國中西醫(yī)結(jié)合學(xué)會(huì),2019:8.
[18]汪志文. 基于深度學(xué)習(xí)的高分辨率遙感影像語義分割的研究與應(yīng)用[D].北京郵電大學(xué),2019.
[19]盧秋芬. 基于機(jī)器視覺竹條缺陷識(shí)別技術(shù)研究[D].福建農(nóng)林大學(xué),2019.
[20]鞠默然,羅海波,王仲博,何淼,常錚,惠斌.改進(jìn)的 YOLO V3 算法及其在小目標(biāo)檢測(cè)中的應(yīng)用[J].光學(xué)學(xué)報(bào),2019,39(07):253-260.
[21]呂易航. 航拍圖像中絕緣子串檢測(cè)、分割與自爆故障識(shí)別方法研究[D].鄭州大學(xué),2019.
[22]蘇健民,楊嵐心,景維鵬.基于 U-Net 的高分辨率遙感圖像語義分割方法[J].計(jì)
算機(jī)工程與應(yīng)用,2019,55(07):207-213.
[23]唐靜. 基于深度學(xué)習(xí)的結(jié)直腸病理輔助診斷方法研究[D].東南大學(xué),2018.
[24]袁兵. 基于全卷積神經(jīng)網(wǎng)絡(luò)的圖像分割算法的研究及應(yīng)用[D].電子科技大學(xué),2018.
[25]溫佩芝,苗淵淵,周迎,馮麗園.基于卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)的圖像自動(dòng)分割方法[J].
計(jì)算機(jī)應(yīng)用研究,2018,35(09):2848-2852.
[26]熊杰. 航拍圖像的絕緣子自爆特征識(shí)別研究[D].電子科技大學(xué),2016.
附錄
1.SSD 算法簡(jiǎn)介:
SSD 算法,其英文全名是 Single Shot MultiBox Detector。從名字可看出SSD 是屬于 one-stage 方法的多框預(yù)測(cè)。SSD 是以 VGG16 為基礎(chǔ)模型,然后在 VGG16 的基礎(chǔ)上增加了卷積層以此來獲得更多的特征圖,把這些特征圖用于后續(xù)的檢測(cè)。SSD 網(wǎng)絡(luò)模型如下圖所示。
SSD 算法網(wǎng)絡(luò)結(jié)構(gòu)
2.SSD 的基本步驟:
1.輸入一幅圖片,讓圖片經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取特征,并生成feature map。
2.抽取其中六層的 feature map,然后再 feature map 的每個(gè)點(diǎn)上生成 default box(各層的個(gè)數(shù)不同,但每個(gè)點(diǎn)都有)。
3.將生成的所有 default box 都集合起來,全部丟到 NMS(極大值抑制)中, 輸出篩選后的 default box,并輸出。
總結(jié)
以上是生活随笔為你收集整理的泰迪杯论文B题(特等奖)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【实践与问题解决29】苹果系统如何做脚本
- 下一篇: 游戏运营岗位介绍和面试题答案