【论文翻译】(UAI 2018)使用感知预测网络进行潜在物理属性的无监督学习
目錄
- 摘要
- 1 介紹
- 2 相關(guān)工作
- 3 模型
- 3.1 感知-預(yù)測網(wǎng)絡(luò)
- 3.2 交互網(wǎng)絡(luò)
- 3.3 感知網(wǎng)絡(luò)
- 3.4 預(yù)測網(wǎng)絡(luò)
- 4 實(shí)驗(yàn)
- 4.1 物理系統(tǒng)
- 4.2 模型架構(gòu)
- 5 結(jié)果
- 5.1 提取潛在屬性
- 5.2 Rollout預(yù)測
- 5.3 對新目標(biāo)的泛化
- 6 討論
譯者:子魚
論文地址:https://arxiv.org/pdf/1807.09244.pdf
參考文獻(xiàn)和補(bǔ)充材料請見原文。譯者水平有限,錯誤難免,懇請讀者批評指正。譯者目前正在做這個方向的研究,歡迎讀者與我交流,可博客留言或發(fā)郵件至infinitylyceum@163.com
摘要
我們提出了一個從潛在物體的相互作用中學(xué)習(xí)其屬性的完全無監(jiān)督的框架:感知-預(yù)測網(wǎng)絡(luò)(PPN)。PPN由一個感知模塊和一個預(yù)測模塊組成,感知模塊提取潛在物體屬性的表示,預(yù)測模塊使用這些提取的屬性來模擬系統(tǒng)動力學(xué),PPN可以完全從物體動力學(xué)樣本進(jìn)行端到端的訓(xùn)練。通過PPN學(xué)習(xí)到的潛在物體屬性表示不僅足以精確地模擬由以前沒見過的物體組成的系統(tǒng)的動力學(xué),而且可以在完全無監(jiān)督的方式下直接轉(zhuǎn)化為可解釋的屬性(例如質(zhì)量、恢復(fù)系數(shù))。至關(guān)重要的是,PPNs也適用于新的場景:基于梯度的訓(xùn)練可以應(yīng)用于許多動力系統(tǒng),基于圖的結(jié)構(gòu)函數(shù)可以應(yīng)用于由不同數(shù)量的對象組成的系統(tǒng)。我們的結(jié)果證明了基于圖的神經(jīng)結(jié)構(gòu)在以物體為中心的推理和預(yù)測任務(wù)中的有效性,并且我們的模型有潛力在尚未被很好理解的系統(tǒng)中發(fā)現(xiàn)相關(guān)的物體屬性。
1 介紹
物體的物理特性與物理定律結(jié)合在一起,支配著我們世界中物體運(yùn)動和相互作用的方式。為觀察到的對象分配屬性可以幫助我們總結(jié)對這些對象的理解,并更好地預(yù)測它們的未來行為。通常,這些性質(zhì)的發(fā)現(xiàn)可以在很少的監(jiān)督下進(jìn)行。例如,通過觀察一個弓箭手射出幾支箭,我們可能總結(jié)出弓弦的張力、風(fēng)的強(qiáng)度和方向、箭的質(zhì)量和阻力系數(shù)等特性都會影響箭的最終軌跡。即使在完全陌生的微觀世界中觀察,人類仍然能夠了解到系統(tǒng)的相關(guān)物理特性[1]。
我們的工作利用神經(jīng)關(guān)系網(wǎng)絡(luò)的最新進(jìn)展,以無監(jiān)督的方式學(xué)習(xí)系統(tǒng)的潛在物理特性。特別是,神經(jīng)關(guān)系體系結(jié)構(gòu)[2,3]已被證明能夠準(zhǔn)確地模擬涉及具有已知物理屬性對象的復(fù)雜物理交互作用。關(guān)系網(wǎng)絡(luò)有幾個特點(diǎn),使它們特別適合我們的任務(wù):它們是完全可微的,這允許它們應(yīng)用于各種不同的情況,而不需要任何架構(gòu)更改;他們有一個模塊化的基于圖的結(jié)構(gòu),概括了不同數(shù)量的對象;它們的基本結(jié)構(gòu)可以很容易地應(yīng)用于動力學(xué)預(yù)測和潛在性質(zhì)的學(xué)習(xí)。
我們使用關(guān)系網(wǎng)絡(luò)來構(gòu)造感知-預(yù)測網(wǎng)絡(luò)(PPN),這是一個新的系統(tǒng),使用一個表示學(xué)習(xí)[4]范式,純粹通過觀察來提取一個物理系統(tǒng)的屬性編碼。以前的神經(jīng)關(guān)系結(jié)構(gòu)只使用關(guān)系網(wǎng)絡(luò)來預(yù)測具有已知屬性值的對象狀態(tài),與此不同的是,我們使用關(guān)系網(wǎng)絡(luò)來創(chuàng)建一個感知網(wǎng)絡(luò)(從觀察中獲得屬性值)和一個預(yù)測網(wǎng)絡(luò)(給定屬性值預(yù)測對象位置)。通過觀察由具有不同屬性值的對象組成的系統(tǒng)的動力學(xué),PPN能夠推導(dǎo)出與物理模擬相關(guān)的潛在屬性的無監(jiān)督表示。這些學(xué)習(xí)的表征可以直接轉(zhuǎn)化為人類可解釋的屬性,如質(zhì)量和恢復(fù)系數(shù)。
我們的系統(tǒng)的一個重要方面是泛化,這是人類在推斷新系統(tǒng)的潛在特性時所擅長的。我們提出的系統(tǒng)在幾種形式的泛化下是健壯的,我們的實(shí)驗(yàn)證明了我們的無監(jiān)督方法識別可解釋的屬性的能力,即使在訓(xùn)練和測試中面對不同數(shù)量的對象,以及屬性值在以前沒見過的范圍內(nèi)。
我們評估了PPN的兩個主要功能:對未見過的對象的動力學(xué)預(yù)測的準(zhǔn)確性和通過模型學(xué)習(xí)到的的屬性的可解釋性。實(shí)驗(yàn)結(jié)果表明,該模型能夠準(zhǔn)確地模擬具有未知屬性值的復(fù)雜多相互作用系統(tǒng)的動力學(xué)過程,只需經(jīng)過較短的觀測周期即可推斷出這些屬性值。此外,我們證明,通過我們的模型學(xué)習(xí)的表示,可以很容易地使用完全無監(jiān)督的方法轉(zhuǎn)換成相關(guān)的人可解釋的屬性。此外,我們使用幾個實(shí)驗(yàn)表明,動力學(xué)預(yù)測的準(zhǔn)確性和性質(zhì)的可解釋性都很好地推廣到新的場景與不同數(shù)量和配置的對象。最終,PPN為發(fā)現(xiàn)物理系統(tǒng)的潛在特性和模擬其動力學(xué)提供了一個強(qiáng)大的通用框架。
2 相關(guān)工作
以往建立直觀物理模型的方法主要分為兩大類:自頂向下的方法,為現(xiàn)有的符號物理引擎推斷物理參數(shù)[1,5,6,7,8,9];以及自底向上的方法,直接預(yù)測物理量或給定觀測的未來運(yùn)動[10,11,12,13,14,15,16]。盡管自頂向下方法能夠很好地泛化到其底層物理引擎支持的任何情況(例如,不同數(shù)量的物體、以前未見過的屬性值等),但它們很難適應(yīng)其底層描述語言不支持的情況,需要手動修改以支持新的交互類型。另一方面,自底向上的方法通常能夠?qū)W習(xí)以前沒有見過的情況的動力學(xué)而不需要手動修改,盡管它們通常缺乏以與自頂向下方法相同的方式進(jìn)行概括的能力。
最近,一種混合方法使用了神經(jīng)關(guān)系網(wǎng)絡(luò)(更一般的基于圖的神經(jīng)網(wǎng)絡(luò)的一個具體實(shí)例[17,18])來獲得自頂向下方法的泛化優(yōu)勢,而不需要底層的物理引擎。關(guān)系網(wǎng)絡(luò)依靠可交換和可結(jié)合的運(yùn)算(通常是向量加法)來組合對象狀態(tài)向量之間的成對交互,以預(yù)測未來的對象狀態(tài)[19]。這些網(wǎng)絡(luò)已經(jīng)成功地模擬了庫侖電荷、物體碰撞(具有或不具有完全彈性)和彈簧張力等相互作用下的多物體動力學(xué)[2,3,20,21]。類似于自頂向下的方法,關(guān)系網(wǎng)絡(luò)能夠在不修改網(wǎng)絡(luò)權(quán)值的情況下,將其對目標(biāo)位置和速度的預(yù)測推廣到不同數(shù)量的目標(biāo)(例如,訓(xùn)練6個目標(biāo),測試9個目標(biāo));此外,它們是完全可微的架構(gòu),可以通過在各種交互作用下的梯度下降來訓(xùn)練。我們的論文以一種新穎的方式利用了交互網(wǎng)絡(luò),首次證明了它作為感知模塊和無監(jiān)督表示學(xué)習(xí)的一個組成部分的有效性。
其他的研究著眼于對潛在物體屬性的監(jiān)督和無監(jiān)督學(xué)習(xí),試圖反映人類在物理環(huán)境中能夠執(zhí)行的物體屬性的推斷[1]。Wu等人[9]利用了一個深度模型和一系列物理定律,從原始視頻輸入來估計質(zhì)量、體積和材料等屬性。Fraccaro等人[22]使用變分自動編碼器推導(dǎo)出單個彈跳球域的潛在狀態(tài),然后使用該域的卡爾曼濾波進(jìn)行模擬。Chang等人[3]證明,他們的基于關(guān)系網(wǎng)絡(luò)的物理模擬器也能夠通過將每種可能的模擬輸出與現(xiàn)實(shí)相比較,對一組可能的屬性值進(jìn)行最大似然推斷。我們的論文更進(jìn)一步,表明物理性質(zhì)可以從僅僅是原始的多物體運(yùn)動數(shù)據(jù)中學(xué)習(xí)。最近,Kipf等人[23]也利用關(guān)系網(wǎng)絡(luò)來推斷對象之間的范疇交互的一致性;相反,我們的論文關(guān)注的是對象屬性的學(xué)習(xí)。
3 模型
3.1 感知-預(yù)測網(wǎng)絡(luò)
PPN觀察具有未知潛在屬性(例如質(zhì)量、恢復(fù)系數(shù))的物體的物理動力學(xué),并學(xué)會生成這些物體屬性的有意義的表示,以便用于以后的模擬。整個網(wǎng)絡(luò)的概述如圖1所示,PPN由以下兩部分組成:
- 感知網(wǎng)絡(luò)在一個短的觀察窗內(nèi)以物體運(yùn)動的幀序列作為輸入。它為場景中的每個對象輸出一個屬性向量,為該對象編碼相關(guān)的潛在物理屬性。每個輸入幀是一組狀態(tài)向量,由每個物體的位置和瞬時速度組成。在訓(xùn)練過程中,沒有對屬性向量給出直接的監(jiān)督目標(biāo)。
- 預(yù)測網(wǎng)絡(luò)使用感知網(wǎng)絡(luò)生成的屬性向量來模擬不同初始設(shè)定的對象。網(wǎng)絡(luò)以感知網(wǎng)絡(luò)生成的屬性向量和所有對象的新的初始狀態(tài)向量作為輸入。它的輸出是從對象的新開始狀態(tài)開始的未來狀態(tài)的rollout(一條軌跡)。預(yù)測網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是rollout序列的真實(shí)狀態(tài)。
圖1:模型概述。PPN遵循的無監(jiān)督對象屬性發(fā)現(xiàn)范式從對象動力學(xué)樣本中提取屬性向量,以準(zhǔn)確預(yù)測這些對象的新軌跡。將無監(jiān)督學(xué)習(xí)方法應(yīng)用到學(xué)習(xí)向量中,可以提取人可解釋的對象屬性。
圖2:模型架構(gòu)。PPN用觀察到的狀態(tài)序列O1,…,OTO_1,…,O_TO1?,…,OT?和初始狀態(tài)R0R_0R0?來開始新的rollout。編碼向量C1,…,CTC_1,…, C_TC1?,…,CT?利用交互網(wǎng)絡(luò)由觀察狀態(tài)導(dǎo)出,最終的屬性向量ZZZ由感知網(wǎng)絡(luò)產(chǎn)生。對于給定初始狀態(tài)R0R_0R0?的新rollout,預(yù)測網(wǎng)絡(luò)利用屬性向量來遞歸預(yù)測未來物體狀態(tài)R1,R2,…R_1, R_2,…R1?,R2?,…。我們對PPN進(jìn)行訓(xùn)練,使這些時間步長預(yù)測的rollout狀態(tài)和真實(shí)狀態(tài)之間的L2距離最小化。
我們使用交互網(wǎng)絡(luò)[2]來實(shí)現(xiàn)感知和預(yù)測網(wǎng)絡(luò),這是一種特殊類型的神經(jīng)關(guān)系網(wǎng)絡(luò),它是完全可微的,可以推廣到任意數(shù)量的對象。這使得我們可以使用梯度下降對兩個網(wǎng)絡(luò)進(jìn)行端到端的訓(xùn)練,只使用預(yù)測網(wǎng)絡(luò)的rollout目標(biāo)的監(jiān)督信號,將感知網(wǎng)絡(luò)輸出的屬性向量直接輸入到預(yù)測網(wǎng)絡(luò)中。
3.2 交互網(wǎng)絡(luò)
交互網(wǎng)絡(luò)(IN)是一種關(guān)系網(wǎng)絡(luò),它是感知網(wǎng)絡(luò)和預(yù)測網(wǎng)絡(luò)的基礎(chǔ)。在高水平上,交互網(wǎng)絡(luò)使用多層感知器(MLPs)實(shí)現(xiàn)兩個模塊化函數(shù),關(guān)系模型frelf_relfr?el和對象模型fobjf_objfo?bj,用于把一組特定對象的輸入特征{x(1),…,x(N)}\{x^{(1)},…,x^{(N)}\}{x(1),…,x(N)}轉(zhuǎn)換為特定對象的輸出特征{y(1),…,y(N)}\{y^{(1)},…,y^{(N)}\}{y(1),…,y(N)},其中NNN是系統(tǒng)中對象的數(shù)量。給定對象iii和jjj的輸入特征,frelf_relfr?el計算出對象jjj對對象iii的“效果”向量為e(i,j)=frel(x(i),x(j))e^{(i,j)}= f_rel(x^{(i)},x^{(j)})e(i,j)=fr?el(x(i),x(j))。網(wǎng)絡(luò)對對象iii的影響e(i)e^{(i)}e(i)是對象iii上所有成對效應(yīng)的向量和∑j≠ie(i,j)\sum_{j\ne i}e^{(i,j)}∑j?=i?e(i,j)。最后,對象iii的輸出為y(i)=fobj(x(i),e(i))y^{(i)}= f_obj(x^{(i)},e^{(i)})y(i)=fo?bj(x(i),e(i))。重要的是,frelf_relfr?el和fobjf_objfo?bj是應(yīng)用于所有對象和對象-對象交互的共享函數(shù),允許網(wǎng)絡(luò)泛化不同數(shù)量的對象。
交互網(wǎng)絡(luò)能夠?qū)W習(xí)具有復(fù)雜物理動力學(xué)的系統(tǒng)的狀態(tài)到狀態(tài)的轉(zhuǎn)換函數(shù)。然而,更普遍的情況是,交互網(wǎng)絡(luò)可用于為輸入和輸出特性特定于特定對象的函數(shù)建模,并且對于每個對象,輸入和輸出之間的關(guān)系是相同的。
當(dāng)我們的預(yù)測網(wǎng)絡(luò)使用交互網(wǎng)絡(luò)來模擬狀態(tài)轉(zhuǎn)換時,我們的感知網(wǎng)絡(luò)使用交互網(wǎng)絡(luò)來根據(jù)觀察到的證據(jù)對對象潛在屬性的值進(jìn)行增量更新。
3.3 感知網(wǎng)絡(luò)
感知網(wǎng)絡(luò)從一系列觀察到的狀態(tài)OOO中產(chǎn)生特定對象的屬性向量ZZZ。如圖2所示,我們的感知網(wǎng)絡(luò)是一個使用交互網(wǎng)絡(luò)作為其核心遞歸單元的遞歸神經(jīng)網(wǎng)絡(luò)。感知網(wǎng)絡(luò)從特定于對象的編碼向量C1C_1C1?開始,初始化為零向量,每個向量有固定的大小LCL_CLC?。在每一步ttt中,IN獲取前面的編碼向量Ct?1C_{t-1}Ct?1?以及最后兩個觀察到的狀態(tài)Ot?1O_{t-1}Ot?1?和OtO_tOt?,以生成更新后的編碼向量CtC_tCt?,其大小也為LCL_CLC?。在處理完所有的觀察幀TOT_OTO?后,感知網(wǎng)絡(luò)將最終的編碼向量CTOC_{T_O}CTO??輸入到一個單獨(dú)的MLP中,該MLP將每個對象的編碼向量轉(zhuǎn)換為每個對象的大小為LZL_ZLZ?的“無中心”屬性向量。我們將無中心屬性向量的最終集合表示為ZuZ_uZu?。
在許多物理系統(tǒng)中,在絕對尺度上測量物體的潛在屬性可能是不可能或不可取的。例如,在一個兩個球彈性碰撞的系統(tǒng)中,一次碰撞只能告訴我們每個物體相對于另一個物體的質(zhì)量,而不是它們的絕對質(zhì)量值。為了允許對絕對屬性值進(jìn)行推斷,我們讓每個系統(tǒng)的第一個對象作為參考對象,并在每個系統(tǒng)中使用相同的屬性值。在此過程中,我們可以通過觀察其他所有對象相對于參考對象的值來推斷它們的絕對屬性值。為了加強(qiáng)對參考對象的推斷,我們通過從每個對象的非居中屬性向量中減去參考對象的非居中屬性向量來“居中”屬性向量,從而產(chǎn)生最終的屬性向量ZZZ。注意,這確保了參考對象的屬性向量始終是零向量,這與它的屬性已知為常量這一事實(shí)相一致。我們可以用以下公式來總結(jié)感知網(wǎng)絡(luò):
C1=0Ct=INpe(Ct?1∣∣Ot?1∣∣Ot),for?t=2,…,TOZu(i)=MLPpe(CTO(i)),for?i=1,…,NZ(i)=Zu(i)?Zu(1),for?i=1,…,NC_1=\bold{0}\\C_t=\bold{IN}_{pe}(C_{t-1}||O_{t-1}||O_t), \text{for}\ t=2,\dots,T_O\\ Z_u^{(i)}=\bold{MLP}_{pe}(C_{T_O}^{(i)}), \text{for}\ i=1,\dots,N\\ Z^{(i)}=Z_u^{(i)}-Z_u^{(1)}, \text{for}\ i=1,\dots,N C1?=0Ct?=INpe?(Ct?1?∣∣Ot?1?∣∣Ot?),for?t=2,…,TO?Zu(i)?=MLPpe?(CTO?(i)?),for?i=1,…,NZ(i)=Zu(i)??Zu(1)?,for?i=1,…,N
其中∣∣||∣∣是面向?qū)ο蟮拇?lián)操作,INpe\bold{IN}_{pe}INpe?是感知交互網(wǎng)絡(luò),MLPpe\bold{MLP}_{pe}MLPpe?是把編碼轉(zhuǎn)化為屬性的MLP,Zu(1)Z_u^{(1)}Zu(1)?是參考對象的非居中屬性向量。
3.4 預(yù)測網(wǎng)絡(luò)
預(yù)測網(wǎng)絡(luò)利用感知網(wǎng)絡(luò)產(chǎn)生的屬性向量,從一個新的初始狀態(tài)R0R_0R0?開始對系統(tǒng)進(jìn)行狀態(tài)到狀態(tài)的rollout。與感知網(wǎng)絡(luò)一樣,預(yù)測網(wǎng)絡(luò)也是具有交互網(wǎng)絡(luò)核心的遞歸神經(jīng)網(wǎng)絡(luò)。在第ttt步,IN獲取前一個狀態(tài)向量Rt?1R_{t-1}Rt?1?和屬性向量ZZZ,并輸出下一個狀態(tài)向量RtR_tRt?的預(yù)測。換句話說:
Rt=INpr(Rt?1∣∣Z),for?t=1,…,TRR_t=\bold{IN}_{pr}(R_{t-1}||Z), \text{for}\ t=1,\dots,T_R Rt?=INpr?(Rt?1?∣∣Z),for?t=1,…,TR?
這里INpr\bold{IN}_{pr}INpr?是預(yù)測交互網(wǎng)絡(luò),TRT_RTR?是rollout的幀數(shù)。
模型的預(yù)測損失函數(shù)是預(yù)測值與真實(shí)值{Rt}t=1…TR\{R_t\}_{t=1\dots T_R}{Rt?}t=1…TR??之間的總MSE。
4 實(shí)驗(yàn)
4.1 物理系統(tǒng)
在我們的實(shí)驗(yàn)中,我們關(guān)注于潛在屬性推斷任務(wù)和后續(xù)動力學(xué)預(yù)測任務(wù)都具有挑戰(zhàn)性的二維域。在所有系統(tǒng)中,第一個對象作為參考對象并具有固定的屬性。所有其他對象的屬性都可以相對于參考對象的屬性推斷出來。我們在以下的域評估PPN(見圖5):
- 彈性 質(zhì)量相等的球具有一種叫做“彈性荷”*(spring charge, charge有電荷之意——譯者注)*的假想性質(zhì),它們相互作用,就好像所有成對的物體都是由遵循胡克定律的彈簧控制的。參考對象的彈性荷為1,而其他所有對象的彈性荷都是從[0.25,4]上的的對數(shù)均勻分布中獨(dú)立隨機(jī)選擇的。連接任意一對物體的彈簧的彈性系數(shù)是兩個物體的彈性荷的乘積,所有彈簧的平衡距離是一個固定的常數(shù)。
- 完全彈性碰撞 半徑固定的球在封閉的盒子里彈性碰撞。參考對象的質(zhì)量為1。其他所有的球的質(zhì)量都是從[0.25,4]上的的對數(shù)均勻分布中獨(dú)立隨機(jī)選擇的。圍繞著這些球的四堵墻具有無限的質(zhì)量,并且不會移動。
- 非完全彈性碰撞 在上一個域的基礎(chǔ)上,我們通過添加恢復(fù)系數(shù)(COR)來引入額外的復(fù)雜性,作為每個對象的另一個變化的潛在屬性。一次碰撞的COR是兩個碰撞物體沿垂直于接觸平面的軸的最終相對速度與初始相對速度的比值。例如,在完全彈性情況,所有碰撞的COR都是1。我們設(shè)定所有的球的COR都是從[0.5,1]上的的均勻分布中獨(dú)立隨機(jī)選擇的。參考對象的COR為0.75。用于計算兩個球之間的碰撞動力學(xué)的COR被定義為兩個碰撞對象的COR的最大值。當(dāng)一個球與墻碰撞,球的COR用于碰撞。
對于每個域,我們在一個包含10610^6106個樣本的擁有6個對象的數(shù)據(jù)集上訓(xùn)練PPN,并在一個包含10510^5105個樣本的擁有6個對象的數(shù)據(jù)集上驗(yàn)證。每個樣本由50個觀測幀作為感知網(wǎng)絡(luò)的輸入和24個rollout幀作為預(yù)測網(wǎng)絡(luò)的目標(biāo)組成。我們在擁有3、6和9個對象的測試集上評估我們的模型,每個測試集有10510^5105個樣本。
此外,我們還希望證明PPN推廣到潛在屬性超出訓(xùn)練中看到的值范圍的新對象的能力。在這個實(shí)驗(yàn)中,我們在一個新的有10510^5105個樣本的2個對象完全彈性球數(shù)據(jù)集上測試我們的模型。第一個球的質(zhì)量仍然固定在1,而第二個球的質(zhì)量從11個值里選擇,這11個值的范圍從32?132^{-1}32?1到32,在對數(shù)尺度間隔均勻。我們在彈性域中做了一個類似的實(shí)驗(yàn),使用同樣的11個值作為第二個物體的彈性荷。
我們使用matter-js,一個通用的剛體物理引擎,用于生成真實(shí)值數(shù)據(jù)。在所有的模擬中,球被包含在一個512px×512px的封閉盒子中。每個球有一個50像素的半徑和隨機(jī)初始化的位置,這樣球沒有重疊。在彈性域中,從[-15,15]px/sec范圍內(nèi)均勻隨機(jī)選取初始x、y速度分量,每個彈簧的平衡位移為150,所有球的質(zhì)量為10410^4104。在完全彈性碰撞域中,初始速度分量選取范圍為[-9,9]px/sec。在非彈性碰撞域中,它們的選取范圍為[-13,13]px/sec。每個數(shù)據(jù)集的幀以120幀每秒的速度采樣。
在創(chuàng)建我們的彈球數(shù)據(jù)集時,我們使用拒絕采樣來過濾一些無法從觀察幀中推斷出的對象潛在屬性的模擬。在每種彈球域中,我們必須能夠推斷出每個物體的質(zhì)量。為了保證這一點(diǎn),每個對象必須直接與參考對象碰撞,或者通過一系列碰撞間接與參考對象連接。對于非彈性區(qū)域,我們必須確保每個對象的COR也可以推斷出來。在球-球碰撞中,只有較高的對象COR用于確定碰撞動力學(xué),因此只有較高的對象COR可以從碰撞中推斷出來。因?yàn)檫@個原因,每個球必須要么與COR較低的球或一堵墻碰撞。
4.2 模型架構(gòu)
我們在所有的實(shí)驗(yàn)中使用單一的模型架構(gòu)。我們將每個編碼向量的大小LCL_CLC?設(shè)置為25,將每個屬性向量的大小LZL_ZLZ?設(shè)置為15。模型中所有的MLP,包括交互網(wǎng)絡(luò)中的MLP,都使用帶有ReLU激活的線性隱藏層和一個線性輸出層。
按照Battaglia等人[2]的整體結(jié)構(gòu),感知網(wǎng)絡(luò)的IN核心由大小為[75,75,75,50]的4層關(guān)系為中心的MLP和大小為[50,50,25]的3層對象為中心的MLP組成。由IN輸出的最終的編碼向量輸入到另一個大小為[15,15,15]的以對象為中心的MLP中,以產(chǎn)生大小為15的最終潛在屬性向量。預(yù)測網(wǎng)絡(luò)的IN核心是一個以關(guān)系為中心的大小為[100, 100, 100, 100, 50]的5層MLP和一個3層以對象為中心大小為[50,50,4]的MLP,用于預(yù)測每個對象的下一個位置和速度。
感知網(wǎng)絡(luò)和預(yù)測網(wǎng)絡(luò)使用單一的訓(xùn)練損失進(jìn)行端到端的訓(xùn)練,我們稱之為預(yù)測損失。預(yù)測損失是24個rollout時間步內(nèi)所有對象的預(yù)測與實(shí)際狀態(tài)向量的MSE的未加權(quán)和。此外,我們在感知網(wǎng)絡(luò)和預(yù)測網(wǎng)絡(luò)的“效應(yīng)”層應(yīng)用L2正則化。這種正則化鼓勵在交互過程中進(jìn)行最小程度的信息交換,并被證明是一般化到不同數(shù)量的對象的關(guān)鍵組成部分。我們通過網(wǎng)格搜索為每個正則化項(xiàng)選擇懲罰因子。我們還實(shí)驗(yàn)了在屬性向量上使用β\betaβ-VAE正則化[24,25],以鼓勵學(xué)習(xí)可解釋的和分解的屬性。
為了提高在模擬長時間鋪展時的穩(wěn)定性,我們在整個rollout上為每個狀態(tài)向量添加了少量的高斯噪聲,迫使模型進(jìn)行誤差自校正。通過實(shí)驗(yàn),我們發(fā)現(xiàn)設(shè)置噪聲std. dev.等于0.001乘以數(shù)據(jù)集上每個狀態(tài)向量元素值的std. dev.,可以穩(wěn)定rollout位置而不影響損失。我們對模型進(jìn)行了150個epoch的訓(xùn)練,并使用Adam[26]對256個小批量對模型參數(shù)進(jìn)行了優(yōu)化。我們使用瀑布方法,即開始時學(xué)習(xí)率為5×1045×10^45×104,和縮減規(guī)模0.8每次驗(yàn)證誤差,估計10個epoch的一個窗口,停止下降。
5 結(jié)果
5.1 提取潛在屬性
結(jié)果表明,對象的物理屬性被成功地編碼到感知網(wǎng)絡(luò)輸出的屬性向量中。事實(shí)上,我們可以對訓(xùn)練過程中感知網(wǎng)絡(luò)生成的屬性向量利用主成分分析(PCA)來提取人類可解釋的彈性荷、質(zhì)量和COR等概念。我們發(fā)現(xiàn),每個屬性向量的第一主分量與彈性域內(nèi)的彈性荷的對數(shù)和彈性域內(nèi)物體質(zhì)量對數(shù)高度相關(guān)。在非彈性球領(lǐng)域,我們也發(fā)現(xiàn),第二主成分的屬性向量與COR高度相關(guān)。表1顯示了在所有三個領(lǐng)域每個學(xué)到的屬性向量的前4個主成分的解釋方差比率(EVR),以及當(dāng)每個組件是用來預(yù)測真實(shí)對象屬性時的R2R^2R2。由于主成分分析是一種無監(jiān)督的技術(shù),這些標(biāo)量可以在沒有質(zhì)量和COR先驗(yàn)概念的情況下被發(fā)現(xiàn),我們可以使用某些主成分EVR的數(shù)量級差異來識別哪些成分代表有意義的性質(zhì),哪些成分僅僅捕捉噪聲。
表1:主成分分析。將主成分分析應(yīng)用于屬性向量,得到與人類可解釋的潛在屬性(如COR和質(zhì)量的對數(shù))高度相關(guān)的主成分。我們計算每一個訓(xùn)練集的屬性向量的前四個主成分的統(tǒng)計量。解釋方差比EVR是主成分的解釋方差作為總體方差的一小部分,而R2R^2R2是主成分和真實(shí)屬性之間平方樣本相關(guān)性。值小于10310^3103的數(shù)字近似為0。
表2:數(shù)據(jù)效率和對象泛化數(shù)量。PPN用10510^5105個訓(xùn)練數(shù)據(jù)學(xué)會了獲取物理性質(zhì),當(dāng)給定2×1052×10^52×105個實(shí)例時收斂。它的預(yù)測可以很好地推廣到對象數(shù)量變化的樣本外測試集。我們在一個6個對象的數(shù)據(jù)集上訓(xùn)練PPN,并在由6、3和9個對象組成的全新數(shù)據(jù)集上測試它。在上面,我們報告了當(dāng)使用屬性向量的第一個主成分來預(yù)測對數(shù)質(zhì)量和第二個主成分來預(yù)測COR(對于非彈性球的情況)時的R2R^2R2。注意即使在3和9個對象的情況PPN也能提取出R2R^2R2很高的質(zhì)量和恢復(fù)系數(shù)。
我們還發(fā)現(xiàn),每個已學(xué)習(xí)的屬性向量只包含有關(guān)其關(guān)聯(lián)對象的信息,而不包含任何其他對象的信息。我們通過使用線性最小二乘法來計算每個對象的真實(shí)潛在屬性和所有其他對象的屬性向量之間的樣本內(nèi)R2R^2R2來檢驗(yàn)這個假設(shè)。這個R2R^2R2小于5%對于這三個域和它們相關(guān)的潛在性質(zhì)。
為了測試我們的感知網(wǎng)絡(luò)的泛化特性,我們在使用感知網(wǎng)絡(luò)(經(jīng)過6對象動力學(xué)訓(xùn)練)和主成分分析預(yù)測不同對象數(shù)量的測試集的屬性值時,計算樣本外R2R^2R2,如表2所示。表2也展示出當(dāng)給定不同數(shù)量的訓(xùn)練實(shí)例時,PPN的表現(xiàn)如何。在所有彈球測試集中,我們的模型訓(xùn)練了10610^6106個數(shù)據(jù)點(diǎn),對數(shù)質(zhì)量的OOS R2R^2R2大于90%,COR的OOS R2R^2R2大于68%,彈簧域中對數(shù)彈性荷的OOS R2R^2R2大于87%。(原文沒說什么是OOS,可能是out-of-sample,意為樣本外——譯者注)
我們還將PPN與LSTM-PPN基線進(jìn)行了比較。LSTM-PPN用多層LSTM替換了PPN中的感知和預(yù)測網(wǎng)絡(luò)。與交互網(wǎng)絡(luò)不同,LSTM不按對象對輸入和輸出進(jìn)行因式分解。相反,每個對象的狀態(tài)向量被連接起來并一起處理,并且學(xué)習(xí)所有對象的單個屬性向量。表格3表明LSTM-PPN沒有學(xué)習(xí)有意義的潛在特性。在每個場景中,真實(shí)對象屬性和屬性向量之間的樣本內(nèi)R2R^2R2中的線性最小二乘小于2%。我們也實(shí)驗(yàn)了不同的β\betaβ數(shù)值在屬性向量Z的正則化項(xiàng)中,如在β\betaβ-VAE25]中。在學(xué)習(xí)對象屬性時,β\betaβ對其值不產(chǎn)生影響。
對于兩個彈球域,物體的相對質(zhì)量是通過碰撞來推斷的,但并不是所有的物體都與參考對象直接碰撞。我們將物體的參考距離定義為在觀察過程中將物體的質(zhì)量與參考物體的質(zhì)量聯(lián)系起來所需要的最小碰撞次數(shù)。例如,對參考距離為3的物體的推斷依賴于對兩個中間物體質(zhì)量的推斷。圖3顯示了PPN預(yù)測R2R^2R2和6個目標(biāo)測試集的參考距離之間的關(guān)系。雖然在推斷過程中,由于復(fù)合誤差的存在,參考距離增加時R2R^2R2會衰減,但PPN清楚地證明了使用及物性來推斷大參考距離物體質(zhì)量的能力。
圖3:質(zhì)量預(yù)測與參考距離。用于預(yù)測不同參考距離下的對數(shù)質(zhì)量的兩個6個物體彈球數(shù)據(jù)集的樣本外R2R^2R2。PPN必須結(jié)合一系列中間質(zhì)量推斷來準(zhǔn)確推斷大參考距離物體的質(zhì)量。
表3:與基準(zhǔn)方法比較。改變正則化項(xiàng)β\betaβ的值并不會顯著改變PPN的性能。PPN始終優(yōu)于基線的LSTM。
5.2 Rollout預(yù)測
雖然PPN的主要目標(biāo)是潛在物理特性的無監(jiān)督學(xué)習(xí),網(wǎng)絡(luò)也可以用來模擬對象動力學(xué)。為了評估PPN的預(yù)測性能,我們使用平均歐幾里得預(yù)測誤差,或平均歐幾里得范數(shù)之間的真值和預(yù)測rollout位置,對所有樣本和對象求平均。我們比較PPN在兩個基準(zhǔn)方法上的表現(xiàn)。平均屬性完美Rollout(MPPR)基準(zhǔn)方法從開始狀態(tài)輸出一個完美的Rollout,但是錯誤地假設(shè)所有的對象質(zhì)量和彈性荷都是1。對于非彈性球域,也假定所有物體的COR是0.75。真實(shí)屬性(GPIN)基準(zhǔn)方法是一種與PPN預(yù)測網(wǎng)絡(luò)具有相同IN架構(gòu)的網(wǎng)絡(luò)。不像PPN,它直接獲取真實(shí)潛在值作為輸入,但它仍然只在6個目標(biāo)的數(shù)據(jù)集上訓(xùn)練。圖4列出了三種模型在不同場景下的平均歐氏預(yù)測誤差,并顯示了預(yù)測誤差在不同rollout步驟下的變化情況。PPN的平均歐幾里得預(yù)測誤差明顯優(yōu)于MPPR基線和相當(dāng)接近GPIN模型,特別是對彈性和完全彈性球數(shù)據(jù)集。
最后,圖5顯示了PPN的rollout軌跡的可視化。隨機(jī)選擇的模擬可以在http://ppn.csail.mit.edu找到。像原始的IN,PPN的推出對早期時間步長的小預(yù)測誤差很敏感,但在視覺上仍具有說服力。
圖4:平均歐幾里得預(yù)測誤差。上:每個測試集的所有時間步長和樣本的歐氏預(yù)測誤差平均值,以幀寬度的分?jǐn)?shù)衡量。對于每個域,PPN和GPIN在6對象系統(tǒng)上進(jìn)行訓(xùn)練,并在具有6、3和9個對象的新系統(tǒng)上進(jìn)行測試。下:6個目標(biāo)場景中每一個不同推出時間步長的歐式預(yù)測誤差平均值。3-對象和9-對象場景的圖形表現(xiàn)出類似的行為。
圖5:Rollout軌跡。6個測試集中的每一個的rollout軌跡樣本(超過24個時間步長)。每個領(lǐng)域的模型在6個目標(biāo)樣本上進(jìn)行訓(xùn)練,并在6個、3個和9個目標(biāo)樣本上進(jìn)行測試。
5.3 對新目標(biāo)的泛化
我們的實(shí)驗(yàn)還探索泛化對象的屬性值范圍之外的訓(xùn)練集,我們在2對象完全彈性測試集中測試PPN框架,這里第二個球的質(zhì)量從從32?132^{-1}32?1到32不等。質(zhì)量值范圍[0.25,4]是在訓(xùn)練集內(nèi)找到的,而超出這個范圍的質(zhì)量值要求PPN將其對質(zhì)量的理解推斷為之前未接觸到的值。我們在彈性域中做了一個類似的實(shí)驗(yàn),其中第二個物體的彈性荷為32?132^{-1}32?1到32。圖6繪制了兩個域中第二個球的真實(shí)屬性值和預(yù)測屬性值之間的關(guān)系,使用第5.1節(jié)中所述的主成分分析技術(shù)進(jìn)行預(yù)測。
在完全彈性球領(lǐng)域,盡管整體上存在低估大質(zhì)量值和高估小質(zhì)量值的趨勢,但即使真實(shí)值遠(yuǎn)在訓(xùn)練范圍之外,PPN仍能提供對質(zhì)量的準(zhǔn)確預(yù)測。在彈性領(lǐng)域,PPN對彈性荷大的對象的預(yù)測效果較好,但對彈性荷小的對象的預(yù)測效果較差。這可能是由于彈性荷低的物體總體上感覺不到多少彈簧力,在32?132^{-1}32?1到16?116^{-1}16?1之間的彈性荷相較于16到32之間的彈性荷是很不值一提的。
圖6:屬性值泛化。彈性和完全彈性球域的2對象測試集中第二個對象的預(yù)測屬性值與真實(shí)屬性值的對比。真實(shí)屬性值的范圍從32?132^{-1}32?1到32。綠色區(qū)域4?14^{-1}4?1到4,表示在訓(xùn)練過程中出現(xiàn)在PPN中的屬性值。誤差條顯示95%置信區(qū)間??偟膩碚f,PPN繼續(xù)對訓(xùn)練集之外的質(zhì)量和彈性荷做出合理的預(yù)測,盡管預(yù)測的對象彈性荷比之前遇到的低
6 討論
我們提出了PPN模型,它能夠以完全無監(jiān)督的方式從對象動力學(xué)樣本中發(fā)現(xiàn)潛在的對象屬性。通過實(shí)驗(yàn),我們不僅證明了通過PPN學(xué)習(xí)到的物體性質(zhì)的表征足以準(zhǔn)確地模擬相同規(guī)律下的新系統(tǒng)的動力學(xué);而且,通過主成分分析,這些學(xué)習(xí)到的表征可以很容易地轉(zhuǎn)化為相關(guān)的、可人類解釋的屬性,如質(zhì)量和恢復(fù)系數(shù)。
PPN證明了魯棒性,通過推廣到新的場景,幾乎沒有損失的準(zhǔn)確性的動態(tài)預(yù)測或潛在性質(zhì)推斷。通過使用交互網(wǎng)絡(luò)作為我們的感知和預(yù)測模塊的基本構(gòu)建塊,我們使我們的模型能夠伸縮到任意數(shù)量的對象和交互,而不需要架構(gòu)的改變。特別是我們的感知網(wǎng)絡(luò)結(jié)構(gòu),是一種簡單而有效的關(guān)系和遞歸網(wǎng)絡(luò)的組合,可能在其他涉及交互對象的時間序列推理任務(wù)中有用。我們還建立了PPN推斷訓(xùn)練中看到的值范圍之外的潛在屬性的能力,進(jìn)一步提高了它發(fā)現(xiàn)新系統(tǒng)的相關(guān)潛在屬性的潛力。
一些擴(kuò)展將進(jìn)一步提高我們的模型對潛在對象屬性的普遍發(fā)現(xiàn)的適用性。特別是,基于交互網(wǎng)絡(luò)的體系結(jié)構(gòu)還不能解決的一些一般性問題:任意形狀剛體之間的碰撞檢測、稠密流體模擬等。將交互網(wǎng)絡(luò)擴(kuò)展到基于粒子的對象表示是一個很有前途的研究方向[27]。
雖然交互網(wǎng)絡(luò)框架通??蓴U(kuò)展到任意數(shù)量的對象,但由于所有對象對之間存在交互項(xiàng),處理所有對象所需的計算時間將與對象數(shù)量成二次關(guān)系,這使得它不適用于非常大的系統(tǒng)。提高感知和預(yù)測模塊的計算效率的一種方法是只考慮目標(biāo)對象鄰域內(nèi)的對象的交互作用(大多數(shù)交互作用只在較短的長度尺度上強(qiáng)),類似于Chang等人[3]。一個更小的全局相互作用網(wǎng)仍然可以用來模擬更遠(yuǎn)距離的相互作用。
PPN提供了一種很有前途的方法來導(dǎo)出控制系統(tǒng)動力學(xué)的底層屬性,除此之外,它還是一個更通用的可學(xué)習(xí)的物理引擎,能夠推理潛在的未知對象的屬性。其操作的完全無監(jiān)督方式和許多泛化特性使其具有良好的通用性。PPN適用于多種系統(tǒng)的應(yīng)用,甚至可以發(fā)現(xiàn)尚未被很好理解的領(lǐng)域的相關(guān)潛在特性。
總結(jié)
以上是生活随笔為你收集整理的【论文翻译】(UAI 2018)使用感知预测网络进行潜在物理属性的无监督学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: nginx.conf文件(原始无修改)
- 下一篇: AI如何实现安全生产智能监控