日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

人工智能们再也不用担心撞上玻璃橱窗了

發布時間:2024/9/3 编程问答 66 豆豆
生活随笔 收集整理的這篇文章主要介紹了 人工智能们再也不用担心撞上玻璃橱窗了 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
簡介:自動送貨車撞上玻璃、掃地機器人撞碎玻璃傷行人……如今這些事件也即將成為過去式。大連理工大學等單位研發了一個玻璃檢測神經網絡,能夠利用 AI 在真實環境下檢測玻璃。


△ 圖左為目標場景,圖右黃色部分為玻璃檢測

自動送貨車撞上玻璃、掃地機器人撞碎玻璃傷行人……如今這些事件也即將成為過去式。

大連理工大學等單位研發了一個玻璃檢測神經網絡,能夠利用AI在真實環境下檢測玻璃。

從圖中可見,神經網絡能很好地將玻璃從實際場景中分割出來。

但事實上,玻璃檢測絕非想象中那般簡單,不僅因為它幾乎是透明的,而且還具有反射性。

更何況,玻璃并沒有固定的形狀,無法根據外形判定某一區域是否存在玻璃。

既然如此,為什么人眼能這么準確地判定出玻璃的存在呢?

全新的神經網絡 GDNet

研究發現,人眼不僅能通過玻璃內外部顏色的差異來判斷玻璃的存在,還能根據反射產生的光斑或重影發現玻璃。

這給了研究者們很大的啟發,并最終設計了名為大視場上下文特征融合( Large-field Contextual Feature Integration ,下簡稱 LCFI)的模塊。

△ LCFI模塊構造

LCFI 模塊用來同時提取高級語義特征和顏色紋理等低級特征兩種上下文特征,用于檢測真實場景中玻璃的存在。

為了提取大量上下文信息,通常的做法是采用大卷積核或進行擴張卷積,但前者會導致大計算量,后者則會稀疏采樣。

而且,這兩種方法并非最優。

△ 實驗對比效果

研究發現,采用非局部運算(non-local)可以同時解決這兩個問題,便有了 LCFI 模塊。

LCFI 模塊采用空間可分離卷積,從水平和垂直兩個維度分別對圖像進行卷積。

由于圖像中玻璃區域的信息非常復雜,且與非玻璃區域有一定的相似度,為了消除這種歧義,模塊將再進行一遍卷積,不過這次是先從垂直、再從水平維度提取互補的上下文特征。

最后,將提取的特征進行融合。

而這個 LCFI 模塊,是玻璃檢測神經網絡 GDNet 中最核心的部分。

△ GDNet 網絡示意圖

GDNet 網絡整體工作原理如下:

  • 第一步,使用預訓練的 ResNeXt101 網絡用于多級特征提取,目的是獲得各種級別的特征。
  • 第二步,在網絡最后嵌入四層 LCFI 模塊,目的是進行各級別大視場內上下文的特征學習。
  • 第三步,將其中三個 LCFI 模塊的輸出通過注意模塊(Attention Module)進行連接和融合,目的是生成大視場內上下文的高級特征。
  • 第四步,從這些高級特征中學習 Attention Map,目的是引導大視場內上下文的低級特征(例如第一個 LCFI 模塊的輸出),以將更多注意力集中在玻璃區域。

最后,通過級聯和注意力機制,合高級與低級特征,目的是生成最終的玻璃特征圖。

GDNet 的創新之處在于,它設計的 LCFI 模塊采用空間可分離卷積,更好地獲取了圖像中有關玻璃的特征。

雖然此前也有關于玻璃的目標檢測研究,但基本集中在玻璃杯、器皿這樣的小型玻璃物體上,檢測方法也多從物體的形狀入手。

這次研究通過玻璃本身的特征,設計了具普適性的玻璃檢測網絡,能有效防止自動駕駛車輛對玻璃幕墻或玻璃門進行誤判,避免發生碰撞事故。

除此之外,對于機器學習中的深度預測、場景理解和去反射等技術任務,也有著重要的意義。

△ 從上到下分別是深度預測、場景理解和去反射

當然,真正要讓 GDNet 在實際玻璃檢測中發揮能力,離不開數據集的制作。

為了使 GDNet 在實際應用中能發揮出更好的效果,研究者們完成了世界上第一個大規模玻璃檢測數據集 GDD。

首個大規模玻璃檢測數據集 GDD

在玻璃檢測數據集(Glass Detection Dataset, GDD)中,共有 3916 張帶玻璃的圖片,其中 2980 張被隨機抽出,用于網絡訓練,剩余 936 張作為測試集。

這三千多張玻璃圖片多來自浴室、辦公室、超市等地方,其中玻璃幕墻占多,其次是玻璃展示櫥窗、玻璃門、陳列柜、窗戶和玻璃護欄。

經統計,玻璃通常占據整張圖像 20%~80% 的大小,且整體分布傾向于圖像中央,這是由玻璃使用特性所決定的。

△ GDD 數據集部分圖像展示

上圖為數據集中部分圖像的展示,可以看見,圖像對玻璃和非玻璃部分進行了分割,白色區域為玻璃所在區域。

從圖例中就能看見,無論是玻璃上貼著的標簽、刮蹭的污漬,還是玻璃上透射和反射的圖像,都可能會在訓練時對網絡產生影響。

與此同時,數據集中也存在著只占圖像 20% 不到的邊角玻璃、或是幾乎充斥整個圖像的大玻璃塊,目的在于增加圖像的隨機性,使得神經網絡具有更好的檢測效果。

檢測效果

事實上,測試也證明,無論是實際檢測效果、還是從數據分析來看,采用 GDD 數據集訓練后的 GDNet 都達到了目前研究中玻璃檢測網絡的最好效果。(下圖中,所展示網絡均已用 GDD 數據集進行訓練)

從下圖來看,相較于其他較前沿的神經網絡,GDNet 對玻璃區域的檢測準確度明顯更高。

△ 與最右邊的真值相比,目前最前沿的部分網絡和 GDNet 對玻璃的檢測效果

在準確度上,相較于 MirrorNet 的 85.07% 和 EGNet的 85.04%,GDNet 達到了 87.63% 的 IoU。( IoU:真值與預測值交集/真值與預測值并集)

相比之下,其平均絕對誤差 MAE 則達到了 0.063。

可以想見,在這樣的效果下,GDNet 未來在玻璃檢測方向上還會有更進一步的發展及應用。


文章來源:https://yqh.aliyun.com/detail/16096

作者介紹

梅海洋,論文第一作者,目前在大連理工大學計算機科學與技術學院的攻讀博士,主要研究方向為圖像處理、計算機視覺與深度學習。

原文鏈接:https://developer.aliyun.com/article/768332?

版權聲明:如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至:developerteam@list.alibaba-inc.com 進行舉報,并提供相關證據,一經查實,本社區將立刻刪除涉嫌侵權內容。

總結

以上是生活随笔為你收集整理的人工智能们再也不用担心撞上玻璃橱窗了的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。