當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

第一个被赋予公明身份的机器人_一文读懂机器人的“眼睛”

發布時間：2023/12/2 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了第一个被赋予公明身份的机器人_一文读懂机器人的“眼睛” 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

看過漫威電影的同學都知道，鋼鐵俠在裝甲里一眨眼，就通過眼球追蹤操控人機互動，集黑科技于一身的裝備簡直不要太炫酷。

如今，我們再回頭看鋼鐵俠的AI識別系統，不禁思考這背后的視覺技術。如何讓機器人像人類一樣獲取視覺能力？有請優必選研究院副院長程駿為我們介紹今天的重要課題——機器視覺技術在服務機器人上的應用。

什么是機器視覺技術

在講視覺技術應用方案之前，我們首先弄清楚一個問題：什么是機器視覺技術？

我們都知道，機器人本身并不具有視覺感知能力，因此需要通過機器視覺技術賦予機器人一雙“眼睛”，讓機器人像人一樣具備檢測、判斷、識別等能力。

機器視覺技術，就是指用計算機來模擬人的視覺功能，但這并不僅僅是人眼的簡單延伸，更重要的是具有人腦的一部分功能一一從客觀事物的圖像中提取信息，進行處理并加以理解，最終用于實際檢測、測量和控制。

為什么要賦予機器人“視覺”

通過視覺感知世界是服務機器人必不可少的能力。

對于目標物體，不僅要知道是什么，而且要知道在哪里；在自主導航過程中，機器人會遇到人、車、植物等影響行走的障礙物，目標檢測可以作為導航避障的一種手段；看護類機器人，需要有跟隨看護人的功能，只有檢測并識別到了人，才能進行跟隨以及進一步交互…

更進一步地說，服務機器人常用的視覺技術主要有三種 ▼

· 檢測：將一張圖片中的所有目標檢測出來，并輸出目標的位置和大小，通常以bounding box的形式輸出結果。

· 識別：識別出圖像中的物體的種類或者人的身份。

· 跟蹤：通常講將各個視頻圖像序列中各個目標之間的軌跡關聯起來，就形成了目標跟蹤。

在實際應用中常常需要應用多個技術。比如，在物體識別中，服務機器人常常在檢測多種物體的同時也輸出被檢測到的物體的種類。而人臉識別則通過人臉檢測和人臉比對或者識別兩個主要步驟來完成。在人體姿態估計中，服務機器人則檢測來確定人體各個關節點，并在檢測中利用各個關節點之間的相互關系來提高精度。

接下來，讓我們從3個方面看看視覺技術在服務機器人中的應用：口罩佩戴識別、人體姿態估計、物體識別。

口罩佩戴識別

2020年初一場疫情，讓“戴口罩”模式徹底流行起來。針對這道“健康防線”，優必選科技根據不同情況訓練出了三類AI算法：佩戴口罩、未佩戴口罩、口罩沒戴好，協助疫情管控人員進行監測。

一般來說，口罩識別分三步進行（讀入視頻圖像→人臉檢測跟蹤→口罩佩戴識別），在人臉檢測的基礎上，重新訓練了分類模型來識別是否戴口罩。

當落地到防疫機器人上，除了正常的視頻讀入與人臉檢測跟蹤外，我們還新增了姿態估計和語音提醒，當檢測到口罩不規范戴法，機器人會及時發出語音提醒用戶戴好口罩。

劃重點，為什么要加入姿態估計呢？因為在口罩識別的過程中，大多數需求是偏向正臉的，由于側臉口罩信息不全，容易造成誤識，因此融入人臉姿態估計，來抓住人臉軌跡中的正臉，實現口罩狀態的精準判斷及推送。

在姿態精估上，優必選科技自研適用于機器人端的輕量級神經網絡，結合關鍵點和姿態做出多層側臉過濾，從而優化側臉誤報體驗，實現復雜場景下的人臉姿態精確估計。

但是在口罩識別的場景中，如果每一幀都要算精確的姿態估計，在多人情況下，對計算的考驗非常大。

為了避免這種情況，可以采用姿態粗估的方法。直觀地說，就是通過一種基于關鍵點位置信息的策略來判斷人臉正側。比如雙眼距離定義為d1，眼睛到嘴巴的距離定義為d2。當正臉旋轉到側臉時，容易發現d2基本不變，而d1卻在顯著減小。這樣就能通過姿態的粗估，抓取正臉的圖像。

除了姿態信息不全外，移動端的人臉檢測也常常帶來很多誤檢，其中誤檢概率較高的情況有后腦勺、手、人臉檢測不全、衣服等。

為了改善誤檢的情況，設計了極其輕量的網絡來做人臉校準，通過對人臉的篩查，誤檢的過濾率可達99%以上，能有效規避誤檢帶來的誤報。同時加入人臉跟蹤，實現跟蹤去重推送，1個人只推送1個狀態。

人體姿態估計

這是幾十年來一直受到計算機視覺社區關注的重要問題，也是了解圖像和視頻中人物的關鍵步驟。人體姿態估計，是指從單張RGB圖像中，精確地識別出多個人體的位置以及骨架上的稀疏的關鍵點位置。

· 2D姿態估計：從RGB圖像估計每個關節的2D Pose（x，y）坐標。

· 3D姿態估計：從RGB圖像中估計每個關節的3D Pose（x，y，z）坐標。

從廣義的角度看，人體姿態估計其實是基于視覺的人體活動分析的技術之一，又分為全身、頭部和人手的研究方向。

有什么難點？比如強大的關節，小而幾乎不可見的關節，柔性的人體，各種衣物遮擋和燈光變化都使人體姿態估計面臨不少挑戰：

· 人體是柔性的，人體任何一個部位的微小變化都會產生新的姿態。

· 關鍵點的可見性受衣著、姿態、視角影響很大。

· 圖像分辨率，較難識別遠處人像的姿態。

· 面臨遮擋、光照的環境因素等影響。

其實在取名上，我們就已經看到“估計”二字，所謂的估計就代表著有很多“不可見”的東西。在標注方法上，學術界有不同的狀態說法（如下圖），這些在訓練當中都會有不同的策略去對待。

對于人體姿態估計的常見方法，近幾年比較火的是一些基于熱圖的方法。比如說像卷積姿態機，通過不同的Stage，計算出不同的熱圖，然后從這些熱圖上拿到關鍵點。再通過后面的幾步Stage，把關鍵點關聯上。因為人體關節點的相對位置是有一定固定關系的，通過這種關聯可以減少誤差。

圖片出自S. Wei, V. Ramakrishna, T. Kanade and Y. Sheikh, &amp;amp;quot;Convolutional Pose Machines,&amp;amp;quot; 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, 2016, pp. 4724-4732, doi: 10.1109/CVPR.2016.511.

那么，做好人體姿態估計分析有什么用呢？你可以在一段時間內追蹤一個人姿態的變化，在動作、手勢和步態識別上都有不同的應用場景：

· 安防監控：人的異常行為動作檢測識別，如斗毆、駕駛打電話等。

· 娛樂：人形機器人動作模仿、交互、動作打分、體育視頻處理、控制游戲中人物動作、AR。

· 教育：學生寫字、低頭、舉手等動作識別。

· 服務類：特殊人群（老人、小孩、孕婦）體態分析，如摔倒等。

· 多任務學習（MTL）。

手勢識別

行人檢測

在教育機器人Yanshee上，我們將2D人體姿態估計與3D人體姿態估計應用于動作模仿。

通過Yanshee頭部RGB相機采集圖像發送給計算設備（云端或筆記本），利用跟蹤方法處理得到的2D或3D關鍵點信息，再將位置信息發送給運動控制模塊解算關節運動角度，進而模仿人的運動。

Yanshee的仿人動作模仿

物體識別

我們的物體識別是基于檢測的，物體檢測和目標檢測就是找出圖像中所有“感興趣目標”，包括目標定位和目標分類兩個子任務，同時確定的類別和位置。

由于目標具有不同姿態、運動具有不規則性，傳感器的景深、分辨率、天氣、光照等條件和場景也呈現多樣性，攝像頭所拍出來的圖像千差萬別。

作為CV重要技術，目標檢測算法的結果直接影響后續的跟蹤、動作識別和行為描述的效果。因此，目標檢測這一基本任務仍然非常具有挑戰性，尤其是在機器人身上做目標檢測，存在很大的提升潛力和空間。

目前主流的目標檢測算法主要是基于深度學習模型，方法從Two-Stage發展到One-Stage ，從Anchor based到Anchor Free檢測算法。

· Two-Stage目標檢測算法

這類檢測算法將檢測問題劃分為兩個階段，第一個階段首先產生候選區域（Region Proposals），包含目標大概的位置信息，然后第二個階段對候選區域進行分類和位置精修，這類算法的典型代表有R-CNN，Fast R-CNN，FasterR-CNN等。

· One-Stage目標檢測算法

這類檢測算法不需要Region Proposal階段，可以通過一個階段直接產生物體的類別概率和位置坐標值，比較典型的算法有YOLO、SSD、CornerNet和CenterNet等。

以智能機器人悟空為例，在目標檢測中就有非常多的需求。比如說通用的物體識別，將物體放置悟空面前，觸發關于物體內容的進一步語音交互；拖動積木條進行編程，通過對圖像主體的分類結果返回對應的值，也就是當識別到某樣東西，才能做下一步的行動，觸發編程條件。

知乎視頻?www.zhihu.com

通過物體檢測算法，悟空能夠檢測出包含水果花卉等多種生活中常見的物體。從算法層面，在CenterNet的基礎上，使用輕量級的網絡模型提取物體的特征，輸出物體的檢測框。與之前的物體檢測算法不同之處在于：該算法輸出一張物體中心熱力圖，通過對該熱力圖的分析處理，直接輸出待檢測的物體中心點以及物體的長和寬。

但是如果訓練樣本不足、訓練數據中樣本不夠豐富、訓練樣本類別不均衡等，視覺上相近的物體也很容易誤識別。

那該怎么辦呢？比如針對難區分的蘋果和桃子，就可以利用預測置信度和后驗概率來作后處理。設置一個閾值，當第一類是蘋果，且蘋果的預測置信度（confidence score）不夠大時, 就在top3 score中找有沒有桃子，當二者之間的預測置信度相差不大時，我們就認為該預測結果是桃子。

其實機器人身上可以應用的視覺技術，遠不止于上面提到的幾個應用，還有視覺導航、語義地圖、物體抓取、視頻分析等等……

相信結合深度學習算法和機器視覺技術，機器人將更好地幫助人做更有價值的事情，為社會帶來持續不斷的動能！

想了解防疫機器人背后的AI技術，請戳下面鏈接：

在你的領域或者專業里，AI 可以帶來哪些革新與進步？?www.zhihu.com 創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的第一个被赋予公明身份的机器人_一文读懂机器人的“眼睛”的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： ps怎么对比原图快捷键_PS教程：P图前
下一篇： git获取本地版本号_Git使用小结