simpread-机器人智能抓取 AI+Grasp
https://baijiahao.baidu.com/s?id=1662839888777319062&wfr=spider&for=pc
抓取規劃問題是指確定物體與手指間的一系列接觸位置,使得手指能抵抗任意外力且靈活操作物體的能力。傳統的基于分析的抓取規劃需要根據已知的被抓物體模型根據力閉合的條件判斷抓取的好,這種方法只適合對已知的物體進行抓取。然而日常生活中有很多相似物體(如圓柱,長方體),沒有必要為每一個物體都建立精確的模型,因此可以用相似性匹配的方法解決這類物體的抓取。隨著人工智能的發展,人工神經網絡可以從大量的已知物體的抓取中提取出有用的抓取基元,從而實現對未知物體的抓取。這樣做的好處是不必為每個被抓物體建立幾何模型,讓機器人智能抓取操作物體。2013 年以前的工作可以參考 [1],下面就近幾年的基于數據的機器人抓取概覽如下。
1. 基于 RGB 圖片的抓取
美國加州大學伯克利分校提出了利用大量的物體三維模型和分析的方法生成抓取數據集,并利用深度圖和卷積神經網絡(CNN)對抓取進行分類 [2]。他們首先把抓取簡化為一個從上至下的夾取(top-down grasp),根據輸入的點云生成上百個成對的抓取候選,再利用 CNN 對候選抓取進行快速評分,從而得到最好的抓取。與之前的基于數據的抓取不同的是,他們沒有使用費時費力的人工標定抓取的方式或機器人隨機抓取來采集數據集,而是利用力閉合的原理通過分析的方式計算出抓取的好壞(是否力閉合)。這樣的好處是可以低成本的生成大量的數據集。
2. 基于點云的抓取
美國西北大學進一步使用點云在不同方向的投影作為人工神經網絡的輸入對抓取進行評分并把抓取數據集擴展到 6D 位姿抓取 [3]。利用點云的好處是可以讓網絡得到更豐富的信息。不同于 Dex-Net,這個工作使用的是 6D 抓取位姿作為抓取的表示。在生成抓取候選上,該文使用了一些設計好的策略。這個策略基于物體的曲面形狀。首先隨機在物體表面采樣一點,以這個點所在的曲面法向作為抓取候選的朝向(下圖 b 紅色箭頭表示),“主成分” 方向作為兩個夾爪連線的方向(下圖 b 中藍色箭頭表示)。并通過基于該抓取的旋轉和平移擴充抓取候選的個數。通過這種采樣方式,可以增加抓取候選中好抓取的比例(無后續人工神經網絡分類的情況下可達 53% 抓取成功率)。得到抓取候選后,經過對抓取點云的投影得到網絡的輸入如下圖(c-e)所示。經過 CNN 對抓取候選的分類后,最高可達 93% 抓取成功率(動態點云)。
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-qhTyEK3C-1598421387404)(https://pics0.baidu.com/feed/faedab64034f78f0a66277bd23797953b2191ce5.jpeg?token=cc18c3cdbb80eb6761da7d435659c2cd)]
進一步,德國漢堡大學張建偉教授團隊和清華大學孫富春教授團隊共同提出了對上述工作的改進 [4]。對于數據集的生成,通過在給抓取打分時不斷調整夾爪和物體之間的摩擦系數得到一個更細化的抓取分數(摩擦系數越小,抓取分數越高)。這樣的數據集可以得到一個帶分數的抓取,從而可以讓網絡學得更細分的抓取分類。對于網絡結構上,他們使用了 PointNet,這樣的好處是可以直接使用點云作為輸入,不需要對點云進行投影。更大的保留了點云的幾何信息。
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-NjOYQHXQ-1598421387405)(https://pics6.baidu.com/feed/14ce36d3d539b600487f2474b118462cc75cb70a.jpeg?token=0444f1c4438fe4894f2f06e4d6a4f5f0)]
不同于首先生成抓取候選,再對抓取分類、評分的思路,英偉達公司的機器人研究團隊提出了直接根據輸入的物體點云生成抓取 [5]。在數據集生成上,他們使用了純物理引擎仿真抓取的方式。這種方法的好處是可以生成用特定規則生成抓取[3.4] 得不到的抓取。這是因為通常分析的方法生成抓取數據集把抓取簡化成了兩個點。而在實際抓取中,機器人通常具有兩個平行的手指作為夾爪。另一個原因是抓圓環物體如帶柄的馬克杯時,力閉合原理無法生成 “Caging” 的抓取。因此用物理引擎可以完全模擬真實中的抓取情形,生成更多樣化的抓取。在網絡上,他們把被抓物體點云和夾爪點云一起作為輸入,使用 PointNet++ 網絡和自編碼機的結構生成好的抓取,并利用一個網絡優化生成的抓取。
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-o9xGu0dX-1598421387406)(https://pics2.baidu.com/feed/e7cd7b899e510fb3199d4108837bbb93d0430c72.jpeg?token=3f71c29bfcb649eb0d000f15666baaa9)]
3. 基于多模態的抓取
基于多模態的抓取通常是指通過不同的指尖力傳感器在正式抓取前通過 “預抓取” 判斷抓取的穩定性,從而決定是繼續抓取還是調整一個新的抓取姿態。清華大學孫富春教授團隊提出使用視覺來生成抓取,并用指尖的觸覺判斷抓取的穩定性 [6]。為此,他們采集了一個視覺、觸覺抓取數據集,并分別用兩個網絡對抓取進行生成和穩定性判斷。該團隊又與 Intel 中國研究院合作,建立了一個視覺、觸覺、力等多模態的機器人抓取數據集,通過視觸融合實現抓取穩定判斷[7]。清華大學孫富春教授團隊也是利用多模態信息實現的機器人智能抓取,而贏得了“IROS2019 機器人靈巧抓取操作比賽” 物流分揀項目的冠軍。
加州大學伯克利分校提出了利用一個基于視覺的觸覺傳感器—GelSight 來進行多模態抓取任務 [8]。得益于他們使用的基于視覺的觸覺傳感器,可以天然的使用廣泛應用的視覺處理神經網絡(CNN),通過與抓取,機器人判斷抓取的好壞并生成下一步的動作。這樣這個機器人系統可以自主的根據觸覺反饋調整抓取策略而不需要人工干預。
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-mJrDqW4s-1598421387409)(https://pics6.baidu.com/feed/5d6034a85edf8db1936c32b1516bae52574e7477.jpeg?token=d8c772edbd3fe126e128bb174f913bb7)]
4. 多指抓取
二指抓取的好處是對抓取的表達比較簡單,但是抓取通常并不是機器人操作的最終目的,人們往往希望通過手內改變被抓物體的姿態和位置完成一些操作任務。如使用工具。 美國馬里蘭大學的研究者提出了一個端到端的多指抓取生成網絡 [9]。 這個網絡使用點云作為輸入,使用 3DCNN 網絡直接生成 Shadow 多指手的抓取規劃。
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-S3aA03GH-1598421387410)(https://pics1.baidu.com/feed/500fd9f9d72a60592cbda857707c479d023bba98.jpeg?token=4a5cd39dbd1ef10663bf2db372c7b967)]
美國麻省理工學院的學者針對多指抓取生成過程中網絡不能適應不同的多指手的問題提出了解決方案 [10]。他們提了一個統一的多指抓取模型以適應不同的機械手。首先,他們把爪子和被抓物體的特征映射到一個低維空間。然后用一個點云選擇網絡去生成接觸點,通過接觸點繼而生成一個無障礙的抓取。
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-jBew1tEt-1598421387410)(https://pics5.baidu.com/feed/ac345982b2b7d0a2b0e1d6c091a7050f4b369a16.jpeg?token=3ca48e7603835896fb17f72aa1420ab7)]
5. 基于任務的抓取
上面的工作都是與任務無關的無序抓取,但是在機器人操作上抓取通常是有目的的。如轉移物體,遞給其他機器人 / 人,使用抓取的物體。在這一領域最新的工作是西安交通大學的機器人課題組 [11]。他們在一個有重疊的場景下完成了基于任務的抓取。首先,他們建立了一個合成的堆疊物體的數據集,并使用條件隨機場(CRF)建立了物體的語義模型。這個模型可以的推導過程用 RNN 來表示,這樣整個基于任務的模型可以端到端進行訓練。
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-G20lMlIv-1598421387410)(https://pics5.baidu.com/feed/10dfa9ec8a13632716751bdfc9c7d3ea09fac715.jpeg?token=96b2c4fd3b0618441a7b928f303528c6)]
6. 基于功能可用性的抓取
在人機交互中,還有一種機器人抓取操作,是基于功能可用性的。想象一下這樣一個場景:人給機器人一個模糊的指令,機器人理解這個指令并做出一定的動作。漢堡大學張建偉團隊考慮了如下兩個情況 [12]:
1)人說:嗨,機器人,我想學習。這時,機器人理解到人想讓機器人遞給他一個可以玩的物體,通過功能可用性網絡,結合輸入圖片,機器人遞給人一本書。
2)人說:嗨,機器人,給我左邊的蘋果。這時桌上有兩個蘋果,機器人理解語義并遞給人左邊的蘋果。
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-obv5VTrJ-1598421387411)(https://pics6.baidu.com/feed/c9fcc3cec3fdfc039a2039acb677f492a4c2261c.png?token=63be45525d7ea7bbf55e31a11487eb95)]
機器人的智能抓取已經成為研究熱點,也逐漸在物流快件、工件、食品等分揀行業中凸顯了重要性。未來如何實現機器人認知的智能抓取操作將會成為重點研究問題。
參考文獻
[1] Bohg J, Morales A, Asfour T, et al. Data-driven grasp synthesis—a survey. IEEE Transactionson Robotics, 2013, 30(2): 289-309.
[2] Mahler, J., Liang, J., Niyaz, S., Laskey, M., Doan, R., Liu, X., … Goldberg, K. (2017). Dex-Net 2.0: DeepLearning to Plan Robust Grasps with Synthetic Point Clouds and Analytic GraspMetrics. Robotics: Science and Systems (RSS), 37(3), 301–316.
[3] ten Pas, A., Gualtieri, M., Saenko, K.,& Platt, R. (2017). Grasp Pose Detection in Point Clouds. The InternationalJournal of Robotics Research, 36(13–14), 1455–1473.
[4] Liang, H., Ma, X., Li, S., Grner, M., Tang, S., Fang, Bin Fang, … Zhang, J. (2019). PointNetGPD: Detecting GraspConfigurations from Point Sets. In International Conference on Robotics andAutomation (ICRA) (pp. 3629–3635).
[5] Mousavian, A., Eppner, C., & Fox, D. (2019). 6-DOF GraspNet: Variational Grasp Generation for ObjectManipulation. ICCV 2019
[6] Guo, D., Sun, F., Fang, B., Yang, C., & Xi, N. (2017). Roboticgrasping using visual and tactile sensing. Information Sciences, 417, 274–286.
[7] Tao Wang, Chao Yang, Frank Kirchner, Peng Du, Fuchun Sun, Bin Fang*, Multimodal grasp data set: a novelvisual-tactile data set for robotic manipulation. International Journal ofAdvanced Robotic Systems, 2019, 16(1):1-10.
[8] Calandra, R., Owens, A., Jayaraman, D., Lin, J., Yuan, W., Malik, J., … Levine, S. (2018). More Than a Feeling: Learning to Grasp and Regrasp using Vision and Touch. In IROS2018.
[9] Liu, M., Pan, Z., Xu, K., Ganguly, K.,& Manocha, D. (2019). Generating Grasp Poses for a High-DOF Gripper UsingNeural Networks. IROS 2019.
[10] L. Shao et al., “UniGrasp:Learning a Unified Model to Grasp With Multifingered Robotic Hands,” inIEEE Robotics and Automation Letters, vol. 5, no. 2, pp. 2286-2293, April 2020.
[11] C. Yang, X. Lan, H. Zhang, N. Zheng, “Task-oriented Grasping in Object Stacking Scenes with CRF-based SemanticModel,” 2019 IEEE/RSJ International Conference on Intelligent Robots andSystems (IROS), Macau, China, 2019, pp. 6427-6434.
[12] Jinpeng Mi, Song Tang, et al. Object Affordance based MultimodalFusion for Natural Human-Robot Interaction. Cognitive Systems Research,54:128–137, 2019.
來自:梁洪濯,方斌 CAAI 認知系統與信息處理專委會 ,激光天地轉載
總結
以上是生活随笔為你收集整理的simpread-机器人智能抓取 AI+Grasp的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Debian安装metasploit
- 下一篇: AI赋能安全 腾讯云发布三大安全新品与