LeCun其实从未离开推特!带货Facebook智能「顺风耳」,GPS导航可以扔了
圖靈獎得主 Yann LeCun 之前一直因為卷入罵戰(zhàn)而宣布退出推特界,結(jié)果最近,網(wǎng)癮大叔坐不住了,經(jīng)常出來冒泡。
就在兩個月前,他還聲稱,這是我在推特上最后一篇有內(nèi)容的帖子,大家再見。
看他現(xiàn)在的狀態(tài),PULSE 的風波好像早已經(jīng)翻篇兒了。
這一次主要還是為自家產(chǎn)品 Facebook AI 最新打造的 3D 嵌入式智能體訓練視聽平臺打 call,平臺可以訓練 AI 智能體成為一個完美助理。
你有沒有這種體驗,
每次一出門就忘記自己的鑰匙放哪兒了?
我把咖啡杯放哪兒了?
出門到底有沒有關門?
每到這種懷疑人生的時候,有虛擬助理來幫你打理一切就再好不過了。
Facebook 近日發(fā)布的三項研究具有里程碑式的意義,意味著虛擬助手可以像人一樣與現(xiàn)實世界進行互動了。
他能夠?qū)W習如何規(guī)劃路線,環(huán)顧周圍的物理環(huán)境,傾聽周遭的一切,甚至建立 3D 空間的記憶。他可以幫你檢查門是否上了鎖,或者樓上臥室里響個不停的手機到底是咋回事。
最新的發(fā)布是基于此前開源的 AI Habitat 仿真平臺(內(nèi)置支持 Facebook Reality Lab 的仿真虛擬環(huán)境數(shù)據(jù)集,以及 Matterport、 Gibson 和其他數(shù)據(jù)集)
Habitat 仿真環(huán)境數(shù)據(jù)集
AI Habitat 能夠高效地在逼真的 3D 環(huán)境中訓練虛擬機器人,能夠在單個 GPU 上以 10000 幀率/秒的速度運行,比實時速度快 100 倍以上。當然最終都是要將仿真平臺上的訓練結(jié)果遷移到現(xiàn)實世界當中。
SoundSpaces:AI 可以自己「聽」到手機鈴聲
聲音在不斷地驅(qū)動著人類的行為,一個小孩兒的哭聲吸引了我們的注意力;玻璃破碎的聲音可能需要緊急幫助;孩子們在客廳里和奶奶通電話,所以需要調(diào)低電視的音量。
但現(xiàn)在的很多智能體對周圍的 3D 世界缺乏這種多模式語義理解,對各類聲音「充耳不聞」。
Facebook 最近建立并開源的 SoundSpaces 就是為了解決這一問題:這是第一個基于復雜 3D 環(huán)境下的幾何聲學模擬的音頻渲染數(shù)據(jù)集。
智能體可以分辨真實世界中聲音,比如鋼琴課上突然消防警報響了這類情況。
SoundSpaces 建立在 Habitat 的基礎上,加載了一種新的音頻傳感器,可以將任何聲源的高保真的仿真結(jié)果插入到一系列來自 Replica 和 Matterport3D 數(shù)據(jù)集的真實世界掃描環(huán)境中。
利用 SoundSpaces,我們?yōu)榍度胧?AI 引入了一個新的任務: AudioGoal,其中智能體必須通過未映射的環(huán)境來查找發(fā)出聲音的對象,例如電話鈴聲。據(jù)我們所知,這是訓練深度強化學習智能體在新環(huán)境中「看」和「聽」的首次嘗試,同時還可以定位發(fā)聲目標。
與處理以點為目標的傳統(tǒng)導航系統(tǒng)不同,這里的智能體不需要指向特定目標位置的指針。智能體接受的指令是「去找響鈴的電話」,而不是「去距離你現(xiàn)在位置西南 25 英尺的地方找電話」。它可以通過多模態(tài)感知,自己發(fā)現(xiàn)目標位置(見下圖)。
用t-SNE 對學習到的音頻特征進行表示,顏色揭示了智能體和目標位置、方向的相關性。紅色代表遠,紫色是近,藍色表示在智能體左側(cè),紅色表示在右側(cè)。
最后,F(xiàn)acebook 采用的音頻編碼能夠提供比 GPS 定位更好的空間線索,避免 GPS 的噪聲影響,因為室內(nèi)環(huán)境中 GPS 經(jīng)常定位不準。
語義地圖 Semantic MapNet:AI 能記住你把杯子放哪兒了
如果你非常熟悉一個特定的地方,家或者辦公室,你一定可以記住很多細節(jié)。
訓練智能體也是如此,他們還可以憑直覺回答一些問題,比如廚房是否在洗衣房旁邊,或者二樓會議室里有多少把椅子。為了建立強大和有能力的人工智能助手,并且能夠很好地執(zhí)行這些任務,就需要訓練智能體從第一人稱視角來探索、觀察和記憶一個空間,然后創(chuàng)建一個第三人稱由上至下的 3D 環(huán)境語義地圖。
為了實現(xiàn)這一目標,F(xiàn)acebook 建立并共享了語義地圖 Semantic MapNet,這是一個用于嵌入式人工智能智能體的新模塊。該模塊使用一種新的空間語義記憶形式,在探索陌生環(huán)境時將觀察到的對象「特征」記錄在以「自我為中心」的框架中。
這些三維空間的語義表達可以為系統(tǒng)提供一個基礎,以完成各種具體的任務,包括問題回答和導航到特定對象位置(沙發(fā)、水槽等)。比如,回答開頭所說的,我的杯子放在柜子上了嗎,這種問題。
MapNet 的原理是,建立了所謂的「多中心」記憶,這是一種記憶表達法,它能夠捕獲(1) 物體之間的未知視點關系和(2) 物體與環(huán)境之間的固定關系。
Semantic MapNet 能夠從它的觀察中提取視覺特征,然后使用端到端框架將它們投影到特定位置,通過它所看到對象的標簽對自上而下的環(huán)境地圖進行解碼。
這種技術使 Semantic MapNet 能夠分割出非常小的對象,從鳥瞰視圖一般來講是看不到的。項目還允許 Semantic MapNet 對給定點及其周圍區(qū)域進行多次觀測。
Facebook 寫道: 「構(gòu)建神經(jīng)記憶片段和空間語義表征的能力對于改進自主導航、移動操作和打造 AI 助理都至關重要。」
通過 RGBD 圖像,Semantic MapNet 可以提取自我中心觀察到的特征,然后將它們投射到一個分布式張量中的對應位置。然后可以對這個張量進行解碼,生成自上而下的環(huán)境語義地圖。
探索和導航:AI 可以在屋里瞎轉(zhuǎn)悠了
除了 SoundSpaces 數(shù)據(jù)集和 MapNet 語義地圖之外,F(xiàn)acebook 還開發(fā)出了另一種模塊,可以推斷出不能直接觀察到的環(huán)境地圖的某些部分,比如餐廳的桌子后面是什么情況。
在 AI 導航領域,最先進的方法包括 DD-PPO 導航算法,但也僅限于解碼 AI 智能體實際在他面前看到的內(nèi)容。
「我們希望實現(xiàn),在有障礙物或未繪制地圖的區(qū)域,也能保持強大的導航能力。為了拓展導航的前沿領域,我們開發(fā)了一種「占用預期」方法,在今年的 CVPR Habitat 2020 挑戰(zhàn)賽中,這種方法獲得了 PointNav 任務的第一名。」Facebook 在博客中寫道。
挑戰(zhàn)賽的難度在于,要求系統(tǒng)適應低質(zhì)量的視覺圖像(帶噪聲的 RGB-D 傳感器),并在沒有 GPS 或羅盤數(shù)據(jù)的情況下運行。
為了做到這一點,F(xiàn)acebook 引入了一個新的模型,它在正常的觀察以外預測「占用」(occupancy,即物體是否存在),同時整合它的預測結(jié)果,隨著時間的推移,探索出一個導航策略,在環(huán)境中自由穿梭。與現(xiàn)有的方法只繪制可見區(qū)域相比,智能體通過推斷地圖中不能直接觀察到的部分來更快地建立其空間感知。
比如,在看到餐廳時,智能體預測桌子后面有空閑的空間,或者眼前的墻壁在持續(xù)延伸,通向一個看不見的走廊(如下圖所示)。因為智能體在創(chuàng)建地圖的同時有能力預測它不能直接看到的區(qū)域,所以在探索和導航任務中會更快更有效。
Facebook 表示,他們的模型和其他方法相比,只用了三分之一的移動次數(shù),在相同的移動次數(shù)下,地圖精確度要提升 30%。
可以聽你的手機響或是嬰兒啼哭做出反應,還能通過記憶判斷出樓上有幾把椅子,繞過障礙物在屋里隨意導航。
這樣的 AI 助手是不是有點兒神了?
參考鏈接:
https://ai.facebook.com/blog/new-milestones-in-embodied-ai
總結(jié)
以上是生活随笔為你收集整理的LeCun其实从未离开推特!带货Facebook智能「顺风耳」,GPS导航可以扔了的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 爨怎么读姓氏(爨怎么读)
- 下一篇: 7月我国稀土出口骤降近70%:与美国无关