當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks 中文翻译

發布時間：2024/5/14 编程问答 127 豆豆

生活随笔收集整理的這篇文章主要介紹了 Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks 中文翻译小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks 中文翻譯

如有異議，請多指教，非專業人員，僅供參考

摘要

理解人類的運動行為對于自主移動平臺(如自動駕駛汽車和社交機器人)在以人類為中心(human-centric)的環境中導航至關重要。這是一項具有挑戰性的任務，因為人類的運動本質上是多模態的：根據人的歷史行動軌跡，在接下來的步驟中人類可以有很多條路作為選擇。我們通過結合序列預測和生成對抗網絡來解決這個問題：使用一個周期性的序列到序列(sequence-to-sequence)模型觀察運動歷史并預測未來的行為，使用一個新穎的池化機制來聚集人們之間的信息。我們通過對抗訓練來預測可信的未來行為，并使用新型的多樣性損失函數來鼓勵多樣化預測。通過對幾個數據集的實驗，我們證明了我們的方法在準確性(accuracy)、多樣性(variety)、避免碰撞(collision avoidance)和計算復雜度(computational complexity)方面優于先前的工作。

1.介紹

預測行人的運動行為對于自動駕駛汽車或社交機器人等與人類共享同一生態系統的自主移動平臺來說至關重要。人類能夠有效地處理復雜的社交(social interaction)，而這些機器也應該能夠做到這一點。為此，一個具體而重要的任務是:給定行人的觀察運動軌跡( 舉例：過去3.2秒的坐標)，預測所有可能的未來軌跡，見 <圖1>
由于擁擠場景中人類運動的固有特性，因此預測人類行為是一項挑戰：

圖1 說明兩個行人想避開對方的場景。有許多可能的方法可以避免潛在的沖突。我們提出了一個方法，給定相同的可觀察過去路徑(observed past)，在擁擠的場景中預測出多個接近人類真實行為(socially acceptable)的輸出。

1.人際互動(Interpersonal)

每個人的行動都取決于周圍的人。人類有一種天生的能力，能夠在人群中解讀他人的行為。聯合建模這些相關性(dependencies)是一個挑戰。

2.社會可以接受性(socially acceptable)

有些軌跡在物理上是可能的，但在社會中這種行為是不可能發生的。行人的行為是受社會規則約束的，比如：讓路(yielding right-of-way)或尊重個人空間。而將這些行為形式化并非易事。

3.多模式(multimodal)

考慮到歷史行為，沒有單一正確的未來預測。多種可能的發展軌跡是合理的，也是符合社會規律的。

軌跡預測的探索工作已經解決了上述一些挑戰。interpersonal 的相關問題已經被基于手工特征 (hand-crafted feature) ^[2,7,41,46]的傳統方法完全解決。最近，基于遞歸神經網絡(RNNs)的數據驅動技術(data-driven techniques)^[1,28,12,4]重新探討了社會可接受性。最后，在給定靜態場景^{[28, 24]}(例如，十字路口應該走哪條街)的情況下，研究了有關該問題多模態(multimodal)的方面。Robicquet等人^[38]證實了在行人在面對不同的場景（溫和的或者激進的場景之下）會采取多重的導航(navigation styles)方式。因此，預測任務需要輸出不同的可能結果。

雖然現有的方法在應對這些具體挑戰方面取得了很大的進展，但它們存在兩個局限性：

i) 首先，在做出預測時，他們模擬每個人周邊的一個區域。因此，它們在對場景中所有人之間的交互進行建模的時候不具備很高的計算效率(computationally efficient fashion)。

ii) 第二，他們傾向于學習“平均行為”，因為通常使用的損失函數，可以最小化預測輸出和ground truth之間的歐氏距離。相反，我們的目標是學習多種“表現優異的行為”，即:，多重的可以被社會所接受的行為軌跡。

為了解決以往工作的局限性，我們建議利用生成模型(recent progress in generative models)的最新進展。生成式對抗網絡(GANs)是近年來發展起來的一種用于解決：難以處理的概率計算和行為推斷的逼近困難等問題^[14]的網絡。雖然他們已經被用來產生逼真的信號，如圖像^[34]，我們提出：給定一個可觀察的過去狀態，使用他們(GAN)來產生多個“社會可接受(socially acceptable)”的軌跡。一個網絡(生成器)生成候選對象，另一個(鑒別器)對它們進行評估。對抗性損失(adversarial loss) 使我們的預測模型能夠超越 L2損失 的限制，并有可能了解那些能夠欺騙鑒別者的“良好行為”的分布。在我們的工作中，這些行為被稱為“在擁擠的場景中的 ‘ 社會可接受 ’ 運動軌跡”。

我們提出的GAN是一個RNN編碼器-解碼器生成器和一個基于RNN的編碼器鑒別器(encoder discriminator)，具有以下兩個新穎之處:

i) 我們引入了多樣性損失(variety loss)，這鼓勵了GAN的生成網絡擴展其分布并覆蓋可能的路徑空間，同時與觀察到的輸入保持一致(being consistent with the observed input)。

ii) 我們提出了一個新的池化機制(pooling mechanism)，它學習一個“全局”池化向量，為所有參與場景的人編碼細致的線索。

通過對幾個公開的真實世界人群數據集的實驗，我們展示了最先進的準確性、速度，并證明我們的模型有能力產生各種“社會可接受”的軌跡

2.相關工作

預測人類行為的研究可以分(can be grouped as)為學習預測人與空間的相互作用或人與人的相互作用。前者學習場景特定的動作模式(scene-specific motion patterns)^{[3, 9, 18, 21, 24, 33, 49]}，后者模擬場景的動態內容，即行人之間如何相互影響(dynamic content of scenes)。
我們工作的重點是后者: 學習預測人與人之間的互動。我們討論了這方面的現有工作，以及RNN在序列預測和生成模型方面的相關工作。

人與人的交互(human-human interaction)
從宏觀模型的人群視角(macroscopic models)和微觀模型(microscopic models)的個體視角(我們工作的重點)對人類行為進行了研究。微觀模型的一個例子是 Helbing和Molnar^[17] 對行人行為進行了建模，引力(attractive force)引導他們朝著目標前進，排斥力(repulsive force)鼓勵他們避免碰撞。在過去的幾十年里，這種方法經常被重新使用^{[5, 6, 25, 26, 30, 31, 36, 46]}。經濟學中流行的工具也被投入使用，如Antonini等人的離散選擇框架(discrete choice framework)^[2]。Treuille等人^[42]采用連續體動力學，Wang等人^[44]，Tay等人^[41]使用高斯過程。這些函數也被用于研究固定群組(stationary groups)^{[35, 47]}。然而，所有這些方法都使用基于相對距離和特定規則的手工制作的能量勢(hand crafted energy potentials based on relative distances and specific rules)。相比之下，在過去的兩年中，基于RNNs的數據驅動方法(data-driven methods)已經超越上述傳統方法。

用于序列預測的RNNs(RNNs for sequence prediction)
遞歸神經網絡是一類豐富的動態模型，它將前饋網絡擴展到多個領域進行序列生成如語音識別^{[7, 8, 15]}，機器翻譯^[8]，為圖像添加字幕^{[20, 43, 45, 39]}但這些應用缺乏高層次的時空結構^[29]，人們多次嘗試使用多個網絡來捕獲復雜的交互^{[1, 10, 40]}，Alahi等人的^[1]使用一個social pooling 層，模擬附近的行人。在本文的其余部分中，我們證明了使用多層感知器(multi-layer perceptron)(MLP)再進行最大池化(max pooling)在計算上更有效，并且與來自^[1] 的social pooling 表現相近或更好。Lee等人^[28]介紹了一個采用變分自編碼器(variational autoencoder)(VAE)的RNN編解碼框架從而進行軌跡預測的。然而，他們并沒有在擁擠的場景中模擬人與人之間的互動。

生成模型(Generative Modeling)
生成模型如變分自編碼器^[23]是通過 最大化訓練數據似然下界(maximize the lower bound of training data likelihood) 來訓練的。Goodfellow等人提出了另一種方法，生成對抗網絡(GANs)^[14]，其中訓練過程是**生成模型(generative model)和判別模型(discriminative model)**之間的極小極大博弈(minimax game)。這就克服了逼近難以計算的概率的運算困難。生成模型在超分辨率^[27]、圖像到圖像轉換^[19]和圖像合成^{[16, 34, 48]}等任務中顯示出良好的結果，這些任務對于給定的輸入具有多個可能的輸出。然而，它們在序列生成問題中的應用，如自然語言處理，已經滯后了，因為從這些生成的輸出中進行采樣并將其提供給鑒別器是一個不可微(non-differentiable)的操作。

3.理論

當人類再人群中進行路徑規劃的時候會本能地考慮到自己身邊的人的狀態。我們計劃我們的路徑，牢記我們的目標，同時也考慮周圍人的運動，如他們的運動方向，速度等。然而，在這種情況下，通常存在多個可能的選項。我們需要的模型不僅能夠理解這些復雜的人類交互行為(human interactions)，而且還能夠捕捉各種選項(capture the variety of options)。目前的方法側重于預測未來的平均軌跡，所以他們通過最小化到ground truth的 L2 距離，而我們希望預測多個“良好”軌跡。在這個部分，我們首先提出了我們的基于編解碼結構的GAN 來解決這些問題，接下來我們展示了我們最新的池化層結構，這是一個模擬人與人之間交互(human-human interaction)的池化層，最終我們引入了我們的多類損失(variety loss)來促使網絡基于給定的觀測序列可以產生多種不同的未來軌跡。

3.1定義問題(problem definition)

我們的目標是聯合推理(reason)和預測(predict)一個場景中所涉及的所有對象(agent)的未來軌跡。我們假設我們接收到的輸入是場景中所有人的軌跡 $X = X_1, X_2,…,X_n,$ 同時預測未來軌跡 $\hat {Y} =\hat Y_1,\hat Y_2,....\hat Y_n$ ，行人的輸入軌跡 $i$ 定義為： $X_i=(x_i^t,y_i^t)$ ，在時間步長 $t=t_{obs}+1,....,t_{pred}$ ，我們用 $\hat {Y_i}$ 表示預測。

3.2 生成對抗網絡(generative adversial networks)

生成式對抗網絡(GAN)由兩個相互對立訓練的神經網絡組成^[14]。進行對抗訓練的兩個模型是:一個是捕獲數據分布的生成模型 $G$ ，一個是估計樣本來自訓練數據而不是 $G$ 的概率的判別模型 $D$ 。生成器 $G$ 以潛在變量 $z$ 作為輸入，輸出樣本 $G (z)$ 。鑒別器 $D$ 把 $x$ 作為輸入，輸出的 $D (x)$ 代表著 $x$ 真實的概率。訓練過程類似于一個兩個人的最小最大的博弈，目標函數如下:

$min_{G}\ max_{D}V(G,D)=\mathbb E_{x-p_{data(x)}}[\log D(x)]+\mathbb E_{z-p_{(z)}}[\log(1-D(G(z)))]$ （公式1）

GANs可以通過向生成器和鑒別器提供額外的輸入 $c$ 來用于條件模型，生成 $G (z, c)$ 和 $D (x, c)$ ^{[13, 32]}

3.3 社交意識 GAN（social-aware GAN）

正如第1節所討論的，軌跡預測是一個多模態問題，生成模型可以與時間序列(timeseries)數據一起使用，以模擬可能的未來。我們在設計SGAN時利用了這一觀點，它使用GANs解決了問題的多種模態(參見圖2)

圖2 系統總覽我們的模型由三個關鍵部分組成: 生成器 $(G)$ , 池化模塊，鑒別器 $(D)$ 。 $G$ 作為過去的軌跡 $X_i$ 的輸入，并且對人 $i$ 的過去行為編碼為 $H_i^t$ ，池化模塊作為所有 $H_i^{t_{obs}}$ 的輸入并且最終對于每一個場景中的人 $i$ 輸出一個池化向量 $P_i$ ，解碼器根據 $H_i^{t_{obs}}$ 和 $P_i$ 生成未來的軌跡。 $D$ 將 $T_{real}$ 或 $T_{fake}$ 作為輸入，并將它們歸類為社會可接受的或不可接受的(PM參見圖3)。

我們的模型由三個關鍵部分組成：生成器 $(G)$ ，池化模塊 $P M$ 和鑒別器 $(D)$ ， $G$ 是G是基于編碼器-解碼器框架，我們通過 $P M$ 來鏈接編碼器和解碼器的隱藏狀態。對 $G$ 輸入 $X_i$ 可以輸出軌跡預測 $\hat {Y_i}$ 。 $D$ 將包含輸入 $X_i$ 和預測結果輸出 $\hat {Y_i}$ 的整個序列輸入到鑒別器中，然后將他們分類為真或者是假。

【生成器】

我們首先將每個人的位置嵌入到一個單層的MLP中來獲取一個固定長度的向量 $e_i^t$ 。這些嵌入部分在 t 時刻作為編碼器的LSTM單元的輸入，引入如下遞歸式:

$e_i^t=\phi(x_i^t,y_i^t,W_{ee})$ （公式2）

$h_{ei}^t=LSTM(h_{ei}^{t-1},e_i^t;W_{encoder})$

其中 $\phi$ 是一個由ReLU非線性單元的嵌入函數， $W_{ee}$ 是一個嵌入的權重。LSTM權重 $W_{encoder}$ 在一個場景中所有人共享。

簡單的對于每一個人使用一個LSTM不能獲取人與人之間的交互行為，編碼器學習每個單元的狀態并存儲它們的運動歷史。然而，正如Alahi等人所示^[1]。我們需要一個緊湊的表示，它結合了來自不同編碼器的信息，以有效地推理有關社會互動。在我們的方法中，我們通過一個池模塊(PM)對人與人的交互進行建模。 $t_{obs}$ 之后，我們把場景中所有人的隱藏狀態集合起來，得到每個人的池化張量(pooled tensor) $p_i$ 。通常情況下，GANs用輸入的噪聲來產生樣例。我們的目標是創造出與過去一致的未來情景。為了實現這一點，我們通過初始化的隱藏狀態來設定生成輸出軌跡的條件，如下：

$c_i^t=\gamma(P_i,h_{ei}^t;W_c)$ （公式3）
$h_{di}^t=[c_i^t,z]$

$\gamma(·)$ 是一個擁有非線性單元ReLU和嵌入權重 $W_c$ 的多層感知機(multi-layer perceptron)(MLP)。在軌道預測方面，我們在兩個重要方面偏離(deviate)了之前的工作:

之前的工作^[1] 使用隱藏狀態來預測二元高斯分布的參數。然而，這如何在不可微的情況下，通過采樣的反向傳播，在訓練過程中引入了困難，我們通過直接預測坐標 $(\hat x_i^t,\hat y_i^t)$ 來避免這種情況。
“社會”語境一般是作為輸入提供的LSTM細胞^{[1, 28]} 相反，我們只提供一次池化上下文(pooled context)作為解碼器的輸入。這也為我們提供了在特定時間步長的情況下選擇池的能力，并且與S-LSTM^[1] 相比，速度提高了16倍(見表2)。

初始化上述解碼器狀態后，我們可以得到如下預測:

$e_i^t=\phi(x_i^{t-1},y_i^{t-1},W_{ed})$

$P_i=PM(h_{d_1}^{t-1},...,h_{d_n}^{t})$ （公式4）

$h_{di}^t=LSTM(\gamma (P_i,h_{d_i}^{t-1}),e_i^t;W_{decoder})$

$(\hat x_i^t,\hat y_i^t)=\gamma(h_{d_i}^t)$

其中 $\phi(.)$ 是擁有非線性單元ReLU和嵌入權重 $W_{ed}$ 的嵌入函數。 $W_{decoder}$ 表示的是LSTM的權重， $\gamma$ 表示的是多層向量感知機(MLP)

【鑒別器】
鑒別器由一個單獨的編碼器組成。具體地說，它取輸入 $T_{real} = [X_i,Y_i]或T_{fake}= [X_i, \hat Y_i]$ 并且分類真/假的。我們在編碼器的最后隱藏狀態上應用一個多層向量感知機(MLP)來獲得一個分類的分數。理想情況下，“鑒別者”將學習微妙的社會互動規則，并將社會不能接受的軌跡歸類為“假軌跡”。

【損失】
除了對抗性損失(adversarial loss)外，我們還將L2損失應用于預測軌跡，該軌跡測量生成的樣本與實際groundtruth真實值之間的差距。

3.4. 池化模塊

為了在多人之間共同推理，我們需要一種機制來在LSTMs之間共享信息，然而，有幾個挑戰的方法應該解決:

一個場景中可能有很多人。我們需要一個緊湊表示，從所有人那里收集信息。
分散的人-人互動。本地信息并不總是足夠的，遠處的行人可能會互相影響。因此，網絡需要對全局配置建模。

圖3 我們通過圖中紅色的人來比較我們的池化機制（紅色虛線箭頭）和社交池化（social-pooling）[1]（紅色虛線格）之間的差距。我們的方法計算紅色的人和所有其他人之間的相對位置; 這些位置與每個人的隱藏狀態連接，由MLP（多層感知機）獨立處理，然后匯集元素以計算紅人的池化向量 $P_1$ 。社交池只考慮網格內的人，并且不能模擬所有人之間的交互。

社交池化^[1]通過提出一個基于網格的池化方案來解決第一個問題。然而，這個人工制作的解決方案速度很慢，并且不能捕獲全局上下文。Qi等^[37] 表明，在輸入點集的變換元素上應用一個學習的對稱函數可以實現上述性質。如圖2所示，這可以通過通過一個多層向量感知機(MLP)和一個對稱函數(我們使用Max-Pooling)傳遞輸入坐標來實現。 池化向量 $P_i$ 需要總結一個人的所有做決定需要的信息。由于我們使用相對坐標來表示平移不變性，所以我們用每個人相對于person $i$ 的相對位置來增加池模塊的輸入。

3.5. 鼓勵產生多樣性樣本

軌跡預測是一個具有挑戰性的問題，因為考慮到過去有限的歷史，一個模型必須對多個可能的結果進行推理。到目前為止所描述的方法產生了良好的預測，但是這些預測試圖在可能有多個輸出的情況下產生“平均”預測。此外，我們發現輸出對噪音的變化不是很敏感，有無噪聲產生的預測非常相近。

我們提出了一個多樣性損失函數來鼓勵網絡產生不同的樣本。對于每個場景，我們通過從 $N (0, 1)$ 中隨機采樣 $z$ 并根據 $L 2$ 意義上的“最佳”預測，生成 $k$ 個可能的輸出預測。

$\frak L_{variety}=min_{k}||Y_i- {\hat{Y_i}}^{(k)}||_2$ （公式5）

其中 $k$ 是超參數

通過僅考慮最佳軌跡，這種損失促使網絡進行“減小錯誤的兩方面預測（hedge the bet）”并覆蓋符合過去軌跡的輸出空間。這個損失在結構上類似于“最小化N（MoN）損失[11]”，但據我們所知，這并未在GAN的背景下用于鼓勵生成樣本的多樣性。

表1 跨數據集的所有方法的定量結果。我們報告了兩個誤差指標平均位移誤差(ADE)和最終位移誤差(FDE)， $t_{pred}= 8$ 和 $t_{pred}= 12$ (8 / 12) 單位是米。我們的方法始終優于最先進的 S-LSTM方法，尤其適用于長期預測(圖中的值越低越好)。

3.6 實驗細節

我們在解碼器和編碼器模型中使用 $L S T M$ 。編碼器隱藏狀態的大小為 $16$ ，解碼器為 $32$ 。我們將輸入坐標嵌入為 $16$ 維向量。我們使用 $A d a m [22]$ 優化器訓練每批次數量為 $64$ 的發生器和鑒別器，迭代 $200$ 次，初始學習率為 $0.001$ 。

4.實驗

在本節中，我們在兩個公開可用的數據集上評估我們的方法：ETH [36]和UCY [25]。這些數據集由具有豐富的人類交互場景的真實世界人類軌跡組成。我們將所有數據轉換為真實世界坐標并進行插值以達到每 $0.4$ 秒獲取一個值。總共有 $5$ 組數據（ETH-2, UCY-3），有 $4$ 個不同的場景，由擁擠的環境中的 $1536$ 名行人組成具有挑戰性的場景，如：群體行為，人們相互交叉，避免碰撞以及群體聚集和散開。

【評估指標】
類似于先前的工作[1,28]我們使用兩個誤差指標：

① 平均位移誤差（ADE）：在所有預測時間步長上， $g r o u n d ? t r u t h$ 標簽與我們預測之間的平均 $L 2$ 距離。

② 最終位移誤差（FDE）：在預測周期 $T_{pred}$ 結束時“預測的最終目的地”與“真實最終目的地”之間的距離。

【Baseline（基線）】
我們與以下基線進行比較：

① 線性： 線性回歸量，通過最小化最小平方誤差來估計線性參數。

② LSTM： 沒有池化機制的簡單LSTM。

③ S-LSTM： Alahi等人提出的方法[1]。每個人都通過LSTM建模，隱藏狀態在每個時間步使用“社交池（social-pooling）”層進行合并。

我們也在不同的控制設置下對我們的模型進行“切除研究”（ablation research）。我們在章節中稱我們的完整方法為 SGAN-kVP-N，其中 kV 表示模型是否使用多樣化損失進行了訓練(k = 1基本上表示沒有使用多樣化損失)，P 表示使用我們提出的池化模塊。在測試時，我們從模型中多次采樣，選擇 L2 意義下的最佳預測進行定量評估。N 是我們在測試期間從模型中采樣的時間。

【評估方法】
我們遵循與[1]類似的評估方法。我們使用“留一法”（leave-one-out），使用4組訓練并測試剩下的一組。我們觀察8個步驟（3.2秒）的軌跡并顯示8個（3.2秒）和12個（4.8秒）時間步長的預測結果。

4.1定量評估

我們將兩個指標ADE和FDE的方法與表1中的不同基線進行比較。正如預期的那樣，線性模型只能對直線路徑進行建模，并且在預測時間較長時（ $t_{pred} = 12$ ）尤其糟糕。 LSTM和S-LSTM都比線性基線表現更好，因為它們可以模擬更復雜的軌跡。然而，在我們的實驗中，S-LSTM并不優于LSTM。我們盡力重現論文的結果。 [1]在合成數據集上訓練模型，然后在真實數據集上進行微調。我們不使用合成數據來訓練任何可能導致性能下降的模型。

圖4 品種損失的影響。對于SGAN-1V-N，我們訓練單個模型，在訓練期間為每個序列繪制一個樣本，在測試期間繪制 N個樣本。對于SGAN-NV-N，我們在訓練和測試過程中使用 N個樣本訓練多個模型以減少變種。多樣性損失的訓練顯性提高了準確性。

總結

以上是生活随笔為你收集整理的Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks 中文翻译的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。