當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

读后感与机翻《从视频中推断力量和学习人类效用》

發布時間：2023/11/27 生活经验 53 豆豆

生活随笔收集整理的這篇文章主要介紹了读后感与机翻《从视频中推断力量和学习人类效用》小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

以下是研究朱松純FPICU概念中U（utility）的相關論文記錄：

讀后感：

作者干了什么事？
- （1）算法能夠預測當人們與物體交互時，身體各個部位(臀部、背部、頭部、頸部、手臂、腿等)所承受的力/壓力。
- （2）這本質上也定義了人體的效用，如舒適性，從而可以解釋人的偏好、預估人的行為（比如某種形態的椅子，會推出哪種類型的坐姿）。
怎么實現的？
- 使用Kinect傳感器捕捉火柴人模型。首先將其轉換為四面體人體模型，然后將其分割為14個身體部位。使用有限元模擬，在有限元的網格的每個頂點處估算力。
- 定義了8種類型椅子，7種類型坐姿。通過枚舉所有位姿并在求解空間中隨機采樣，對超過4000種不同的情況進行分類，使用排序函數。
前提條件是什么？
- RGBD數據及其骨架識別。
- 預先定義的幾種坐姿類型、幾種椅子形態。
- 一個自行設計的基于物理的軟體模擬（算法或軟件），軟體人由2000個頂點組成。
是否可遷移應用？
- 設計的建模軟件似乎很有新意。

《Inferring Forces and Learning Human Utilities From Videos》

《從視頻中推斷力量和學習人類效用》，作者Yixin Zhu等5人，CVPR 2016，代碼：https://github.com/xiaozhuchacha/ChairPerson

摘要

我們提出一個功能可見性的概念,考慮物理量時生成人體與真實世界的物體,并介紹一個學習框架,包含了人類工具的概念,這在我們看來不僅提供了一個更深、更細粒度的帳戶對象的給養,也人與對象交互。我們沒有根據身體姿態和3D對象之間的幾何兼容性來定義可視性，而是設計了使用基于物理的模擬來推斷作用于身體部位的相關力/壓力的算法。通過觀察人們在視頻中做出的選擇(特別是在選擇坐的椅子時)，我們的系統就能了解施加在身體部位上的力的舒適間隔(當人們坐著的時候)。我們根據人的效用來考慮人們的偏好，它超越了舒適間隔來考慮場景中有意義的任務和運動規劃中的時空約束，例如機器人的任務規劃。

1?介紹

近年來，人們對計算機視覺和圖形學中對象可視性的研究越來越感興趣。由于許多對象類，特別是人造對象和場景布局，主要是為人類目的而設計的，對對象啟示的最新研究包括對幾何和功能的推理，從而比傳統的基于外觀的機器學習方法對未見實例實現更好的概括。特別是，Grabner等人[19]通過將典型的人體坐姿調整到3D對象上，設計了一種座椅啟示檢測器。

在本文中，我們提出超越可見的幾何兼容性，通過基于物理的模擬，來推斷當人們與物體交互時，身體各個部位(臀部、背部、頭部、頸部、手臂、腿等)所承受的力/壓力。

通過觀察人們年代選擇以視頻為例,在選擇一個特定的椅子來坐的椅子可以在一個場景(圖1),我們可以學習身體部位的舒適區間壓力以及人類偏好分發這些壓力在身體部位。因此，當施加在身體部位的力/壓力超過舒適區間時，我們的系統能夠感受到數值上的不適。我們認為，這是代表人類效用的重要一步，即經濟學和倫理學(如哲學家杰里米·本尼特[Jeremy Benthem]所定義的快樂和滿足，驅動著人類各個層面的活動。在我們的工作中，“人的效用”解釋了人們在一個場景中為什么會選擇一把椅子，以及他們如何調整自己的姿勢來使自己坐得更舒服，不僅提供了對物體可視性的更深入、更細致的描述，還提供了視頻中觀察到的人們的行為。

圖1所示。在(a)辦公室和(b)會議室坐著活動的例子。除了幾何形狀和外觀，人們在選擇一把椅子時還會考慮其他重要的因素，包括舒適性、達到的成本和社會目標。直方圖顯示了人類對不同候選椅子的偏好。

除了身體壓力的舒適間隔，我們對人類效用的概念也要考慮在內：(i)的任務在一個場景為例,學生與教授交談在辦公室(圖1 (a))或參加電話會議在實驗室(圖1 (b)),人們必須參加其他對象和人類,和(2)的空間約束有計劃運動例如,成本達到一把椅子在遠處。在一個成熟的應用程序中，我們演示了可以使用人工工具來分析人類活動，比如在機器人任務規劃上下文中。

1.1 相關工作

可視性建模:可視性的概念首先是由Gibson[18]引入的。Hermans等人[24]和Fritz等人[15]預測了自主機器人的動作地圖。后來，研究人員通過觀察人們與3D場景的互動，將啟示線索納入形狀識別[11,14,64]。通過添加幾何約束，一些研究人員計算了一小組離散位姿的對齊[19,20,32]。Kim等人[37]通過搜索形狀的連續位姿參數空間，獲得了形狀與人體骨骼之間的精確對齊。最近，Savva等人[53]預測了3D場景中可能發生動作的區域。在場景標記和對象放置中使用可視性的應用在[31,30,29]中有報道。一個密切相關的話題是推斷場景中的穩定性和支持關系[28,70,41]。

從視頻中推斷力:對于姿態跟蹤，Brubaker等人[5,7,6]使用質量-彈簧系統估計接觸力和內部關節力矩。最近，Zhu等人和Pham等人[72,51]使用數值微分方法來估計手操縱力。這些方法要么局限于剛體問題，要么使用過于簡化的人體模型，這些模型在模擬場景中任意三維物體的人體交互細節方面是不夠的。在計算機圖形學中，軟體仿真被用于聯合跟蹤人手并計算視頻中的接觸力[67,63]。

機器人技術中的任務規劃:機器人技術在尋求通過合成軌跡理解人類運動方面有著悠久的歷史。通過二維人體運動合成進行分層任務規劃[73]，但這些模型僅限于二維運動規劃和相對簡單的面向位置的目標。[36]等更復雜的模型試圖在肌肉骨骼水平上理解以任務為導向的人體運動，但它們沒有考慮到整個3D環境的上下文。為了合成邏輯軌跡，我們依賴于為機器人控制應用(例如[17])開發的魯棒規劃算法，并且我們通過合成合理的人類軌跡，將這些前向規劃引擎應用于場景理解，這是[38]一個被充分研究的機器人問題。

圖形中基于物理的人體模擬:基于物理的模擬可變形物體的技術在該課題的開創性工作后被廣泛應用于計算機圖形學[61,60]。彈塑性材料的常用模擬方法包括質點-彈簧阻尼系統[45,62]、有限元法(FEM)[59, 27, 44, 23]和物質點法(MPM)[56, 57]。我們采用有限元法，因為它是物理上準確，魯棒和計算效率。在各種變形實體中，人體因其在電影和游戲角色動畫中的重要作用而備受關注。之前有大量研究將人體解剖結構建模為包括脂肪組織在內的生物力學肌肉骨骼系統[39,40,54,52]。為了提高效率，我們的人體模型只是一個單一的各向同性彈性體。這使得我們能夠在合理的時間限制內運行大量的模擬，并且仍然能夠獲得有用的結果。

1.2 貢獻

本文主要有5個貢獻:

我們采用基于物理的軟體模擬來推斷人與物交互過程中不可見的物理量，例如力和壓力。據我們所知，這是第一篇采用先進的，物理精確模擬場景理解的論文。我們的方法的一個主要優點是它在推斷作用于整個人體的力和壓力上的魯棒性，因為我們的模型由超過2000個頂點組成，以一種真實的方式變形。
基于一個由RGB-D傳感器獲取的靜態場景，我們提出了框架原因的相關物理，以便合成創造性的，物理穩定的坐在物體上的方式。
通過結合傳統的機器人路徑規劃，我們提出的框架可以推廣靜態坐姿延伸到動態運動序列。
從人體演示中，我們的系統學會生成人體每個部位的力量直方圖，這本質上定義了人體的效用，如舒適性，根據作用在人體每個部位的力量。
我們提出了一種方法，從使用Kinect傳感器[50]獲得的廣泛使用的桿人模型中穩健地生成體積人體模型，并引入管道來重建具有明確的內部和外部區域的防水3D場景，這對于使用高級仿真成功地實現基于物理的場景理解至關重要。

1.3 概述

本文的其余部分組織如下:在第二節中，我們介紹我們的表示法，它將物理量納入感興趣的時空空間中。在第3節中，我們用有限元法(FEM)描述了計算相關物理量的管道。在第4節中，我們將問題表述為一個排序任務，并引入了一種在理性選擇假設下的學習和推理算法。第5節表明，我們提出的框架可以很容易地推廣到具有挑戰性的新情況。第6節通過討論局限性和未來工作對本文進行總結。

2 表示法

2.1 三維空間中的空間實體與關系

我們用一個解析圖G來表示坐姿行為和相關關系，包括(i)從3D場景中提取的空間實體、物體和人體姿勢，以及(ii)空間關系-物體-物體和人-物體關系。

空間實體:對于輸入視頻的每一幀，解析圖G首先被分解為一個靜態場景和一個人體姿態。靜態場景進一步分解為一組三維物體，包括椅子(圖2(b))。在本文中，我們只考慮與坐有關的人體姿勢。我們使用Kinect傳感器收集典型的坐姿，并將其排列和聚類為7個平均坐姿(圖2(a))。對于每個平均姿態，我們首先將Kinect棍人模型(圖3(a))轉換為四面體人體模型(圖3(b))。然后將其離散成14個預先定義的人體部位(圖3(c))進行仿真，如圖3(d)所示。

圖2。(a)我們收集一組人體姿態，并將其聚類為7個平均姿態。(b)從掃描場景中提取的各種椅子。(c)每個人體姿態分解為14個身體部位。當人與椅子交互時，我們使用FEM模擬來推斷每個身體部位的力。(d)說明人類偏好的例子;綠色表示舒適的坐姿，紅色表示不舒服的坐姿。

圖3。火柴人模型(a)使用了Kinect是人類模型轉換成tetrahedralized (b),然后劃分為14個身體部位(c),使用有限元模擬物理量 p (G)估計在每個有限元網格的頂點;每個頂點的力用(d)表示。

空間關系:從三維場景中提取的對象對形成對象-對象關系，每個對象和人的姿態對形成人-對象關系。圖6(d)(e)給出了一個空間關系的例子。對于本文的目的,我們定義這兩個空間關系的空間特性年代(G)編碼的相對空間距離和方向。在更高的層次上，人與物的關系也編碼了視覺注意力和社會目標。

2.2 人類效用的物理量

到目前為止，研究人員大多通過評估人和物體之間的幾何相容性來生成啟示地圖[37,30,14,29,53,64]。我們雇傭了一個更有意義的、可量化的指標部隊(包括壓力)物理量 p (G)在人造物產生互動。作用在身體每個部位的力基本上決定了一個人與場景互動的舒適程度。人們傾向于選擇更舒適的椅子，這樣可以明顯地在身體的各個部位提供更好的支撐力分布(圖2(d))。

在重建的場景中部署物理模擬的體積人體模型，我們可以在人體模型的每個頂點估計細粒度的外力，如圖3(d)所示。在本文中，我們使用有限元法來計算力。作用于身體各部分的力可以通過對頂點的力貢獻的總和來估計。使用物理概念的一個主要優勢是它們能夠概括到新的情況。

2.3?及時的人類效用

為了建立人的效用模型，我們將計劃成本分解到我們提出的框架中。這被定義為從給定的初始狀態到目標狀態的身體姿勢序列，它通過時間編碼人們的意圖和任務計劃。與之前的工作相比，增加計劃成本將求解空間從靜態人體姿態擴展到動態人體姿態序列。

為了簡化問題，我們使用概率路線圖(PRM)計劃者[35]來計算計劃成本。從上面看，我們投影3D場景來創建一個平面圖，并使用2D PRM來計算平面圖成本。然而，我們提出的框架并不排除在三維空間中使用更復雜的規劃方法。

3?在3D場景中估算力

3.1?三維場景和人體模型的數據集

我們的數據集包括重建的防水3D場景，從場景中提取的3D對象(包括椅子)，跟蹤的人體骨骼和體積人體姿態。骨骼和人體的體積姿態被登記在重建的場景中。

我們的數據集相對于以前的數據集(例如[9,21,66,53])最顯著的特征是我們重建場景的水密支柱。這對于基于物理的模擬方法如FEM是至關重要的。此外，我們的數據集包括更大的椅子形狀的物體和人體姿態的變化，如圖2(a)(b)，以及更具挑戰性和雜亂的場景。

3.2 重建水密場景

重構閉環場景:使用純幾何配準的重構方法[48,34,49,65]存在精細幾何細節混疊和基于局部幾何消除不同位置歧義的能力。當嘗試注冊低重疊的循環閉包片段時，這些問題會變得復雜起來。在我們的工作中，我們基于線過程[9]，通過全局優化重建三維場景，得到了帶有閉環的詳細的結構，如圖4(a)所示。

圖4. fromareconstructed3dindoorscene (a)[9,53]， weuni- formly在輸入網格的泊松磁盤sam- pling (b)[4]中采樣頂點，然后將它們轉換為定義良好的內部和外部區域的水密網格[43,47]。輸入網格與轉換后的防水網格之間的差異(c)。通過添加一個地面幾何圖形，我們獲得了一個詳細的，不透水的3D場景的結構(d)，它被輸入到模擬中。

轉換到水密場景:碰撞檢測和分辨率在模擬需要一個水密場景網格。我們首先使用泊松磁盤采樣[4]從輸入三角形網格生成均勻分布的頂點，如圖4(b)所示。每個頂點然后被一個固定半徑的球體水平集[47]替換。隨后，將結構實體幾何(CSG)并集操作應用于該水平集和底層集，以生成一個填充地板的完整場景。最后，將Marching Cubes al- gprs算法[43]應用于水平集，生成不透水面，如圖4(d)所示。產生的場景有明確的內部和外部區域的仿真所要求的。

3.3?人體姿態體積建模

骨架對齊和聚類

骨架皮

體積離散化

3.4 模擬人與場景的交互

彈力

接觸力

動態集成

模擬輸出

圖5。在3D場景中給定一個受重力(a)影響的初始人體姿態，如果沒有足夠的阻尼(b)，人體會過于活躍，產生不自然的彈性運動。在適當的阻尼作用下，模擬在少量的時間步長內收斂到物理穩定的休息位姿(c)。

4?學習和推斷人類的效用

4.1?特征提取

數據預處理

空間特征

時間的特征

物理量

圖6。數據預處理。給出一個重建的3D場景(a)，我們將其投射到一個平面圖(b)，并分割場景中的3D物體(c)。(d)可視化3D對象位置(綠點)，人頭位置(藍點)和方向(藍線)。(e)空間特征(G)被定義為人-物(紅線)和物-物(綠線)的相對距離和方向。(f)時間特征:從給定初始位置到目標位置的計劃成本。(g)(h) PRM計劃者使用具有不同節點數的圖生成了兩種解決方案(更多節點產生更高成本的更細粒度的計劃)。

4.2 學習人類的效用

理性選擇假設

排名函數

4.3?推斷最優可供性

4.4?解空間采樣

在沒有觀察到人類與場景交互的情況下，推理算法必須通過想象不同的配置來對求解空間進行采樣。在學習階段也需要同樣的sam- pling過程來生成否定的例子。

我們首先將人體姿態量化為7類，如圖2(a)所示。通過不同姿態P a、平移T b和方向c對胡曼模型的想象構型進行初始化，如圖7(b)(c)所示。元組(P a,T b,O c)指定了一個惟一的人工配置。給定這樣一個元組，仿真將施加重力，仿真人體模型將達到靜止狀態。然后使用第4.1節中所述的方法來提取特征量。

在學習階段，使用了排序函數(7)。在推理階段，利用(11)對提取的特征進行評估。以得分最高的配置為最優配置G。

5 實驗

5.1 從演示中學習人類效用

使用RGB-D傳感器收集一組坐在場景中的人的演示，如圖7(A)所示。觀察到的演示被用作積極的訓練例子。對于每個3D場景，我們通過枚舉所有位姿并在求解空間中隨機采樣不同的初始人類平移和旋轉，進一步對超過4000種不同的配置進行了分類，如圖7(b)(c)所示。對與人工演示相似的合成構型進行了修剪。剩下的構型被用作否定的例子。學習算法(7)學排名函數的系數向量ω在三個不同的設置:(i) phy - ical量φp (G),(2)使用額外的空間關系φ(G),和(3)所有功能φp (G),φ(G)、t (G)和φ。

圖7。在學習階段，根據理性選擇理論，假設所觀察到的論證是最優的，并以此作為實證。(a)在這個例子中，一個人坐在扶手椅上，面對著一張有顯示器的桌子。學習算法通過初始化不同的人體姿態P a， (b)平移T b和(c)朝向c，在求解空間中想象不同的構型。假設的隨機生成構型{G i}被視為反面例子。在推理階段，推理算法執行相同的采樣過程(b)(c)，找到得分最高的最優配置G。

圖8(a)顯示了14個身體部位中6個的最終力直方圖。不出所料坐時,部隊行動的臀部在幾乎所有情況下,上腿和較低的手臂也往往受到較大震級部隊,每手臂和頭部,不太可能與現場互動,和腳接觸的場景在很多情況下,但overallsmallforcemagnitudes。圖8(b)顯示了在所有收集的人體坐著活動中作用于人體各部位的平均力的熱圖。

圖8。(a) 14個身體部位中6個的最終力直方圖。x軸表示力的大小，y軸表示力的頻率和勢能。直方圖區域反映了非零力情況下的數字。(b)身體各部分的平均力歸一化并重拍為T位姿。

5.2?在靜態場景中推斷最優啟示

接下來，我們在三種不同的場景中測試了我們的數據集和之前的3D數據集[53,9]:(i)有椅子形狀物體的規范場景，(ii)有嚴重物體重疊的clut- tered場景，以及(iii)與訓練數據極為不同的新場景。

第一次測試是在火車運行的同一個場景中進行的。圖9顯示了排名最高的人體姿態的示例。雖然使用物理量，計算出的坐姿看起來似乎合理(圖9(a))，但有些結果看起來不像坐姿(例如，躺姿和倒立姿)。這種結果的多樣性是由于缺乏空間和時間的約束。

圖9。(a)采用物理量計算的前7位人體姿勢p (G)。算法尋求身體舒適的坐姿，導致坐姿隨意;躺在桌子上。(b)增加空間特征量(G)限制人-物相對方向和距離后，改進了結果。進一步包括時間特征，t (G)生成最自然的姿勢(c)。黃色的包圍框表示門，路徑規劃器的初始位置。在觀察到的演示中，在標有紅色邊框的3D椅子附近生成的樣本，當力作用于人的手臂時，不會產生高分(圖7(a))。椅子扶手的缺乏導致了低分。

將空間特征因子(G)、人體模型與場景中物體之間的相對方位和距離等因素考慮在內，改進了結果，如圖9(b)所示。直觀上看，最上面的姿勢變得更自然，因為他們與觀察到的示威人群有著相似的人類關注和社會目標。對于圖9所示的情況。人體模型和帶有監視器的桌子之間的相對方向修剪了人體姿勢不朝向監視器的配置。平躺姿勢和倒立姿勢也被修剪。

整合時間特征的時間t (G)也考慮了計劃成本，這就刪除了與觀察到的人員演示相比具有較大計劃成本差異的姿態。注意，在時間特征中使用的計劃成本使我們的系統輸出一個動態移動序列，這擴展了靜態坐姿在以前的工作。

另外的結果包括規范的，雜亂的，和新穎的場景從我們的數據集和其他數據集[53,66,9,71]顯示在圖10中。

圖10。前3個姿勢在(a)(b)規范的場景，(c)混亂的場景，(d)(e)新奇的場景。(a)和(b)中使用了所有的特征，(c)和(e)中使用了物理量，即(p)和計劃成本(G)。路徑規劃器的初始位置用黃框表示。

評估:我們讓4名受試者對得分最高的坐姿進行排名。圖11繪制了它們的排名和我們系統輸出之間的關系。

圖11。人類受試者排名的相關性(x軸)和我們的系統輸出(y軸)。繪制的點落在對角線上越近，我們提出的方法越符合人體受試者的表現。圖(a) (e)對應圖10(a) (e)，圖(f)對應圖9(c)。

6 討論及未來工作

當前關于對象啟示的研究[11,14,64,19,20,32,37,53,72]吸引了越來越多的人對基于幾何的方法的興趣，這些方法比流行的基于外觀的馬-秦學習方法提供了更強的泛化能力。我們已經更進一步，在視頻中加入了無形的物理量，并學習了基于理性的人類行為和選擇的人類效用。基于物理的模擬比幾何兼容性更普遍，正如公共視頻中通常看不到的各種懶散/隨意的坐姿所表明的那樣。我們認為，人類工具為對象可視性和人類行為提供了更深入、更細粒度的解釋。結合空間文本特征、時間計劃成本和在模擬人機交互過程中計算的物理量，我們證明了我們的框架是足夠通用的，可以使用從典型案例中訓練出來的模型來處理新案例。

我們目前的工作有幾個局限性，我們將在未來的研究中指出:首先，我們假設了一個剛性的場景。我們將考慮物體的各種物質特性，并允許物體和人體模型之間的雙向因果相互作用。這承諾使更深入的場景理解的幫助下，更復雜的高級任務規劃者。其次，目前我們將解剖復雜的人體簡單地建模為同質彈動力材料。我們相信一個更真實的生物力學人體模型，關節骨由肌肉和其他軟組織組成(見，例如，[39,54])，可以使我們的框架產生更精細的解決方案。最優的電機控制器也可以在人體仿真中被em設計來支持細粒度的電機規劃，從而超越了任務規劃，盡管這將增加計算復雜度。

通過解決這些問題，我們將更接近于整合視覺、圖形、認知和機器人技術方面的幾種不同研究流和聯合方法。

總結

以上是生活随笔為你收集整理的读后感与机翻《从视频中推断力量和学习人类效用》的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：读后感和机翻《他们在看哪里，为什么看?在
下一篇： CV竞赛项目研究：脊柱疾病诊断（天池，G