當(dāng)前位置：首頁(yè) >

人工智能们再也不用担心撞上玻璃橱窗了

發(fā)布時(shí)間：2024/9/3 90 豆豆

生活随笔收集整理的這篇文章主要介紹了人工智能们再也不用担心撞上玻璃橱窗了小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

簡(jiǎn)介：自動(dòng)送貨車撞上玻璃、掃地機(jī)器人撞碎玻璃傷行人……如今這些事件也即將成為過(guò)去式。大連理工大學(xué)等單位研發(fā)了一個(gè)玻璃檢測(cè)神經(jīng)網(wǎng)絡(luò)，能夠利用 AI 在真實(shí)環(huán)境下檢測(cè)玻璃。

△ 圖左為目標(biāo)場(chǎng)景，圖右黃色部分為玻璃檢測(cè)

自動(dòng)送貨車撞上玻璃、掃地機(jī)器人撞碎玻璃傷行人……如今這些事件也即將成為過(guò)去式。

大連理工大學(xué)等單位研發(fā)了一個(gè)玻璃檢測(cè)神經(jīng)網(wǎng)絡(luò)，能夠利用AI在真實(shí)環(huán)境下檢測(cè)玻璃。

從圖中可見(jiàn)，神經(jīng)網(wǎng)絡(luò)能很好地將玻璃從實(shí)際場(chǎng)景中分割出來(lái)。

但事實(shí)上，玻璃檢測(cè)絕非想象中那般簡(jiǎn)單，不僅因?yàn)樗鼛缀跏峭该鞯?#xff0c;而且還具有反射性。

更何況，玻璃并沒(méi)有固定的形狀，無(wú)法根據(jù)外形判定某一區(qū)域是否存在玻璃。

既然如此，為什么人眼能這么準(zhǔn)確地判定出玻璃的存在呢？

全新的神經(jīng)網(wǎng)絡(luò) GDNet

研究發(fā)現(xiàn)，人眼不僅能通過(guò)玻璃內(nèi)外部顏色的差異來(lái)判斷玻璃的存在，還能根據(jù)反射產(chǎn)生的光斑或重影發(fā)現(xiàn)玻璃。

這給了研究者們很大的啟發(fā)，并最終設(shè)計(jì)了名為大視場(chǎng)上下文特征融合（ Large-field Contextual Feature Integration ，下簡(jiǎn)稱 LCFI）的模塊。

△ LCFI模塊構(gòu)造

LCFI 模塊用來(lái)同時(shí)提取高級(jí)語(yǔ)義特征和顏色紋理等低級(jí)特征兩種上下文特征，用于檢測(cè)真實(shí)場(chǎng)景中玻璃的存在。

為了提取大量上下文信息，通常的做法是采用大卷積核或進(jìn)行擴(kuò)張卷積，但前者會(huì)導(dǎo)致大計(jì)算量，后者則會(huì)稀疏采樣。

而且，這兩種方法并非最優(yōu)。

△ 實(shí)驗(yàn)對(duì)比效果

研究發(fā)現(xiàn)，采用非局部運(yùn)算（non-local）可以同時(shí)解決這兩個(gè)問(wèn)題，便有了 LCFI 模塊。

LCFI 模塊采用空間可分離卷積，從水平和垂直兩個(gè)維度分別對(duì)圖像進(jìn)行卷積。

由于圖像中玻璃區(qū)域的信息非常復(fù)雜，且與非玻璃區(qū)域有一定的相似度，為了消除這種歧義，模塊將再進(jìn)行一遍卷積，不過(guò)這次是先從垂直、再?gòu)乃骄S度提取互補(bǔ)的上下文特征。

最后，將提取的特征進(jìn)行融合。

而這個(gè) LCFI 模塊，是玻璃檢測(cè)神經(jīng)網(wǎng)絡(luò) GDNet 中最核心的部分。

△ GDNet 網(wǎng)絡(luò)示意圖

GDNet 網(wǎng)絡(luò)整體工作原理如下：

第一步，使用預(yù)訓(xùn)練的 ResNeXt101 網(wǎng)絡(luò)用于多級(jí)特征提取，目的是獲得各種級(jí)別的特征。
第二步，在網(wǎng)絡(luò)最后嵌入四層 LCFI 模塊，目的是進(jìn)行各級(jí)別大視場(chǎng)內(nèi)上下文的特征學(xué)習(xí)。
第三步，將其中三個(gè) LCFI 模塊的輸出通過(guò)注意模塊（Attention Module）進(jìn)行連接和融合，目的是生成大視場(chǎng)內(nèi)上下文的高級(jí)特征。
第四步，從這些高級(jí)特征中學(xué)習(xí) Attention Map，目的是引導(dǎo)大視場(chǎng)內(nèi)上下文的低級(jí)特征（例如第一個(gè) LCFI 模塊的輸出），以將更多注意力集中在玻璃區(qū)域。

最后，通過(guò)級(jí)聯(lián)和注意力機(jī)制，合高級(jí)與低級(jí)特征，目的是生成最終的玻璃特征圖。

GDNet 的創(chuàng)新之處在于，它設(shè)計(jì)的 LCFI 模塊采用空間可分離卷積，更好地獲取了圖像中有關(guān)玻璃的特征。

雖然此前也有關(guān)于玻璃的目標(biāo)檢測(cè)研究，但基本集中在玻璃杯、器皿這樣的小型玻璃物體上，檢測(cè)方法也多從物體的形狀入手。

這次研究通過(guò)玻璃本身的特征，設(shè)計(jì)了具普適性的玻璃檢測(cè)網(wǎng)絡(luò)，能有效防止自動(dòng)駕駛車輛對(duì)玻璃幕墻或玻璃門(mén)進(jìn)行誤判，避免發(fā)生碰撞事故。

除此之外，對(duì)于機(jī)器學(xué)習(xí)中的深度預(yù)測(cè)、場(chǎng)景理解和去反射等技術(shù)任務(wù)，也有著重要的意義。

△ 從上到下分別是深度預(yù)測(cè)、場(chǎng)景理解和去反射

當(dāng)然，真正要讓 GDNet 在實(shí)際玻璃檢測(cè)中發(fā)揮能力，離不開(kāi)數(shù)據(jù)集的制作。

為了使 GDNet 在實(shí)際應(yīng)用中能發(fā)揮出更好的效果，研究者們完成了世界上第一個(gè)大規(guī)模玻璃檢測(cè)數(shù)據(jù)集 GDD。

首個(gè)大規(guī)模玻璃檢測(cè)數(shù)據(jù)集 GDD

在玻璃檢測(cè)數(shù)據(jù)集（Glass Detection Dataset, GDD）中，共有 3916 張帶玻璃的圖片，其中 2980 張被隨機(jī)抽出，用于網(wǎng)絡(luò)訓(xùn)練，剩余 936 張作為測(cè)試集。

這三千多張玻璃圖片多來(lái)自浴室、辦公室、超市等地方，其中玻璃幕墻占多，其次是玻璃展示櫥窗、玻璃門(mén)、陳列柜、窗戶和玻璃護(hù)欄。

經(jīng)統(tǒng)計(jì)，玻璃通常占據(jù)整張圖像 20%~80% 的大小，且整體分布傾向于圖像中央，這是由玻璃使用特性所決定的。

△ GDD 數(shù)據(jù)集部分圖像展示

上圖為數(shù)據(jù)集中部分圖像的展示，可以看見(jiàn)，圖像對(duì)玻璃和非玻璃部分進(jìn)行了分割，白色區(qū)域?yàn)椴Ａ趨^(qū)域。

從圖例中就能看見(jiàn)，無(wú)論是玻璃上貼著的標(biāo)簽、刮蹭的污漬，還是玻璃上透射和反射的圖像，都可能會(huì)在訓(xùn)練時(shí)對(duì)網(wǎng)絡(luò)產(chǎn)生影響。

與此同時(shí)，數(shù)據(jù)集中也存在著只占圖像 20% 不到的邊角玻璃、或是幾乎充斥整個(gè)圖像的大玻璃塊，目的在于增加圖像的隨機(jī)性，使得神經(jīng)網(wǎng)絡(luò)具有更好的檢測(cè)效果。

檢測(cè)效果

事實(shí)上，測(cè)試也證明，無(wú)論是實(shí)際檢測(cè)效果、還是從數(shù)據(jù)分析來(lái)看，采用 GDD 數(shù)據(jù)集訓(xùn)練后的 GDNet 都達(dá)到了目前研究中玻璃檢測(cè)網(wǎng)絡(luò)的最好效果。（下圖中，所展示網(wǎng)絡(luò)均已用 GDD 數(shù)據(jù)集進(jìn)行訓(xùn)練）

從下圖來(lái)看，相較于其他較前沿的神經(jīng)網(wǎng)絡(luò)，GDNet 對(duì)玻璃區(qū)域的檢測(cè)準(zhǔn)確度明顯更高。

△ 與最右邊的真值相比，目前最前沿的部分網(wǎng)絡(luò)和 GDNet 對(duì)玻璃的檢測(cè)效果

在準(zhǔn)確度上，相較于 MirrorNet 的 85.07% 和 EGNet的 85.04%，GDNet 達(dá)到了 87.63% 的 IoU。（ IoU：真值與預(yù)測(cè)值交集/真值與預(yù)測(cè)值并集）

相比之下，其平均絕對(duì)誤差 MAE 則達(dá)到了 0.063。

可以想見(jiàn)，在這樣的效果下，GDNet 未來(lái)在玻璃檢測(cè)方向上還會(huì)有更進(jìn)一步的發(fā)展及應(yīng)用。

文章來(lái)源：https://yqh.aliyun.com/detail/16096

作者介紹

梅海洋，論文第一作者，目前在大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的攻讀博士，主要研究方向?yàn)閳D像處理、計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí)。

原文鏈接：https://developer.aliyun.com/article/768332?

版權(quán)聲明：如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容，歡迎發(fā)送郵件至：developerteam@list.alibaba-inc.com 進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。

總結(jié)

以上是生活随笔為你收集整理的人工智能们再也不用担心撞上玻璃橱窗了的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：开放下载！《阿里云存储白皮书》全面解读阿
下一篇：秒懂云通信：选云通信到底哪家强？