當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

LeCun其实从未离开推特！带货Facebook智能「顺风耳」，GPS导航可以扔了

發布時間：2023/11/23 综合教程 41 生活家

生活随笔收集整理的這篇文章主要介紹了 LeCun其实从未离开推特！带货Facebook智能「顺风耳」，GPS导航可以扔了小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

　　圖靈獎得主 Yann LeCun 之前一直因為卷入罵戰而宣布退出推特界，結果最近，網癮大叔坐不住了，經常出來冒泡。

　　就在兩個月前，他還聲稱，這是我在推特上最后一篇有內容的帖子，大家再見。

　　看他現在的狀態，PULSE 的風波好像早已經翻篇兒了。

　　這一次主要還是為自家產品 Facebook AI 最新打造的 3D 嵌入式智能體訓練視聽平臺打 call，平臺可以訓練 AI 智能體成為一個完美助理。

　　你有沒有這種體驗，

　　每次一出門就忘記自己的鑰匙放哪兒了？

　　我把咖啡杯放哪兒了？

　　出門到底有沒有關門？

　　每到這種懷疑人生的時候，有虛擬助理來幫你打理一切就再好不過了。

　　Facebook 近日發布的三項研究具有里程碑式的意義，意味著虛擬助手可以像人一樣與現實世界進行互動了。

　　他能夠學習如何規劃路線，環顧周圍的物理環境，傾聽周遭的一切，甚至建立 3D 空間的記憶。他可以幫你檢查門是否上了鎖，或者樓上臥室里響個不停的手機到底是咋回事。

　　最新的發布是基于此前開源的 AI Habitat 仿真平臺(內置支持 Facebook Reality Lab 的仿真虛擬環境數據集，以及 Matterport、 Gibson 和其他數據集)

　　Habitat 仿真環境數據集

　　AI Habitat 能夠高效地在逼真的 3D 環境中訓練虛擬機器人，能夠在單個 GPU 上以 10000 幀率/秒的速度運行，比實時速度快 100 倍以上。當然最終都是要將仿真平臺上的訓練結果遷移到現實世界當中。

　　SoundSpaces：AI 可以自己「聽」到手機鈴聲

　　聲音在不斷地驅動著人類的行為，一個小孩兒的哭聲吸引了我們的注意力；玻璃破碎的聲音可能需要緊急幫助；孩子們在客廳里和奶奶通電話，所以需要調低電視的音量。

　　但現在的很多智能體對周圍的 3D 世界缺乏這種多模式語義理解，對各類聲音「充耳不聞」。

　　Facebook 最近建立并開源的 SoundSpaces 就是為了解決這一問題:這是第一個基于復雜 3D 環境下的幾何聲學模擬的音頻渲染數據集。

　　智能體可以分辨真實世界中聲音，比如鋼琴課上突然消防警報響了這類情況。

　　SoundSpaces 建立在 Habitat 的基礎上，加載了一種新的音頻傳感器，可以將任何聲源的高保真的仿真結果插入到一系列來自 Replica 和 Matterport3D 數據集的真實世界掃描環境中。

　　利用 SoundSpaces，我們為嵌入式 AI 引入了一個新的任務: AudioGoal，其中智能體必須通過未映射的環境來查找發出聲音的對象，例如電話鈴聲。據我們所知，這是訓練深度強化學習智能體在新環境中「看」和「聽」的首次嘗試，同時還可以定位發聲目標。

　　與處理以點為目標的傳統導航系統不同，這里的智能體不需要指向特定目標位置的指針。智能體接受的指令是「去找響鈴的電話」，而不是「去距離你現在位置西南 25 英尺的地方找電話」。它可以通過多模態感知，自己發現目標位置(見下圖)。

　　用t-SNE 對學習到的音頻特征進行表示，顏色揭示了智能體和目標位置、方向的相關性。紅色代表遠，紫色是近，藍色表示在智能體左側，紅色表示在右側。

　　最后，Facebook 采用的音頻編碼能夠提供比 GPS 定位更好的空間線索，避免 GPS 的噪聲影響，因為室內環境中 GPS 經常定位不準。

　　語義地圖 Semantic MapNet：AI 能記住你把杯子放哪兒了

　　如果你非常熟悉一個特定的地方，家或者辦公室，你一定可以記住很多細節。

　　訓練智能體也是如此，他們還可以憑直覺回答一些問題，比如廚房是否在洗衣房旁邊，或者二樓會議室里有多少把椅子。為了建立強大和有能力的人工智能助手，并且能夠很好地執行這些任務，就需要訓練智能體從第一人稱視角來探索、觀察和記憶一個空間，然后創建一個第三人稱由上至下的 3D 環境語義地圖。

　　為了實現這一目標，Facebook 建立并共享了語義地圖 Semantic MapNet，這是一個用于嵌入式人工智能智能體的新模塊。該模塊使用一種新的空間語義記憶形式，在探索陌生環境時將觀察到的對象「特征」記錄在以「自我為中心」的框架中。

　　這些三維空間的語義表達可以為系統提供一個基礎，以完成各種具體的任務，包括問題回答和導航到特定對象位置（沙發、水槽等）。比如，回答開頭所說的，我的杯子放在柜子上了嗎，這種問題。

　　MapNet 的原理是，建立了所謂的「多中心」記憶，這是一種記憶表達法，它能夠捕獲(1) 物體之間的未知視點關系和(2) 物體與環境之間的固定關系。

　　Semantic MapNet 能夠從它的觀察中提取視覺特征，然后使用端到端框架將它們投影到特定位置，通過它所看到對象的標簽對自上而下的環境地圖進行解碼。

　　這種技術使 Semantic MapNet 能夠分割出非常小的對象，從鳥瞰視圖一般來講是看不到的。項目還允許 Semantic MapNet 對給定點及其周圍區域進行多次觀測。

　　Facebook 寫道: 「構建神經記憶片段和空間語義表征的能力對于改進自主導航、移動操作和打造 AI 助理都至關重要。」

　　通過 RGBD 圖像，Semantic MapNet 可以提取自我中心觀察到的特征，然后將它們投射到一個分布式張量中的對應位置。然后可以對這個張量進行解碼，生成自上而下的環境語義地圖。

　　探索和導航：AI 可以在屋里瞎轉悠了

　　除了 SoundSpaces 數據集和 MapNet 語義地圖之外，Facebook 還開發出了另一種模塊，可以推斷出不能直接觀察到的環境地圖的某些部分，比如餐廳的桌子后面是什么情況。

　　在 AI 導航領域，最先進的方法包括 DD-PPO 導航算法，但也僅限于解碼 AI 智能體實際在他面前看到的內容。

　　「我們希望實現，在有障礙物或未繪制地圖的區域，也能保持強大的導航能力。為了拓展導航的前沿領域，我們開發了一種「占用預期」方法，在今年的 CVPR Habitat 2020 挑戰賽中，這種方法獲得了 PointNav 任務的第一名。」Facebook 在博客中寫道。

　　挑戰賽的難度在于，要求系統適應低質量的視覺圖像（帶噪聲的 RGB-D 傳感器），并在沒有 GPS 或羅盤數據的情況下運行。

　　為了做到這一點，Facebook 引入了一個新的模型，它在正常的觀察以外預測「占用」（occupancy，即物體是否存在），同時整合它的預測結果，隨著時間的推移，探索出一個導航策略，在環境中自由穿梭。與現有的方法只繪制可見區域相比，智能體通過推斷地圖中不能直接觀察到的部分來更快地建立其空間感知。

　　比如，在看到餐廳時，智能體預測桌子后面有空閑的空間，或者眼前的墻壁在持續延伸，通向一個看不見的走廊(如下圖所示)。因為智能體在創建地圖的同時有能力預測它不能直接看到的區域，所以在探索和導航任務中會更快更有效。

　　Facebook 表示，他們的模型和其他方法相比，只用了三分之一的移動次數，在相同的移動次數下，地圖精確度要提升 30%。

　　可以聽你的手機響或是嬰兒啼哭做出反應，還能通過記憶判斷出樓上有幾把椅子，繞過障礙物在屋里隨意導航。

　　這樣的 AI 助手是不是有點兒神了？

　　參考鏈接：

　　https://ai.facebook.com/blog/new-milestones-in-embodied-ai

總結

以上是生活随笔為你收集整理的LeCun其实从未离开推特！带货Facebook智能「顺风耳」，GPS导航可以扔了的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：爨怎么读姓氏（爨怎么读）
下一篇： 7月我国稀土出口骤降近70％：与美国无关