日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICCV 2019 | 基于无标签单目视频序列的单帧三维人体姿态估计算法

發布時間:2024/10/8 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ICCV 2019 | 基于无标签单目视频序列的单帧三维人体姿态估计算法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者丨王璇

學校丨西安交通大學

研究方向丨人體姿態估計

我們都知道,要訓練一個準確的三維人體姿態估計深度神經網絡,需要大量有三維標簽的數據,越多越好。而在現實生活中,我們很難得到很多有標簽數據,而無標簽單目視頻序列的獲取要容易得多。

那么有沒有辦法利用這些無標簽視頻序列,來輔助三維人體姿態估計網絡的訓練呢?針對這一情況,本工作提出了一種針對訓練樣本較少的情況下三維人體姿態估計的標簽自動標注算法,使用完全無標簽的視頻序列,輔助單目單幀三維人體姿態估計網絡的訓練。本工作由西安交通大學完成,發表于 ICCV 2019。

背景

從單目圖像估計三維人體姿態是計算機視覺中的一個重要課題。近年來,隨著深度學習的發展,用深度神經網絡解決三維人體姿態估計問題的技術也發展的越發成熟。

然而,基于深度學習的人體姿態估計方法存在著一個較大的局限,即需要大量的有標簽數據才能訓練出較為準確的三維人體姿態估計網絡。而三維標簽的獲取,要么使用動作捕捉系統,需要特殊的儀器和受限的環境;要么使用人工標注的方法,耗時費力且準確度不高。

針對三維標簽難以獲得的問題,近年來也提出了一些半監督的解決方案,如使用無標簽的多視圖數據或二維標注的圖像對訓練數據進行增廣等。然而,多視圖數據仍然需要特殊的多相機拍照環境才可獲取,而 2D 人體關鍵點的人工標注也仍然耗時費力。相比之下,無標簽單目視頻序列的獲取就容易得多。

因此,如何僅利用無標簽的視頻序列來輔助單幀三維人體姿態估計任務呢?針對這一問題,我們提出了一種從無標簽的單目人體動作視頻序列中自動標注三維標簽的算法。

與之前從連續圖像序列學習人體姿態的方法不同,在我們的方法中,視頻數據僅需在訓練期間使用。給定僅使用少量有標簽數據進行預訓練的基線模型,我們的算法可以使用基于矩陣補全的方法自動從單目視頻序列中收集 3D 標簽。

在此過程中,除了需要少量的有 3D 標簽的數據之外,我們的方法不需要任何人工干預(如 2D 姿態的手動標注或多相機系統的校準),而這些人工干預通常是現有的弱監督方法所必須的。

如在 Human3.6M 和 MPI-INF-3DHP 數據集上的實驗所示,我們的方法成功地將預訓練的模型進行了微調,使其遷移到了無標簽單目視頻中所描述的新的動作和主題上。微調后的模型所估計的 3D 人體姿態,比基線模型的準確性提高了約 10%。

框架

本文設計了一種從無標簽的單目人體動作視頻序列中自動標注三維標簽的算法,用以在有標簽訓練樣本較少的情況下,輔助三維人體姿態估計網絡的訓練。該框架的主要流程如圖 1 所示。

首先,使用少量有標簽的數據預訓練出一個基線模型,使其可以輸出可用但不太準確的 3D 人體姿態。然后,優化此基線模型所輸出的不準確的三維人體姿態,并將其當作偽標簽,用以對基線模型的進一步訓練(微調)。

與之前的方法相比,本文中的方法所需要的訓練數據僅為無標簽的單目視頻序列,而單目視頻序列的捕獲不需要任何特定的設備(如多相機系統),且不受控制環境的限制。此外,使用本方法用視頻對數據集進行擴充時,無需人工干預。

▲?圖1.?基于無標簽單目視頻序列的三維人體姿態估計框架

下面幾個小節將從基線模型、軌跡補全(標簽優化)和模型微調三個方面詳述該框架的工作過程。

基線模型

為了從單目圖像重建 3D 人體姿勢,通常需要準確的 2D 特征表示。文獻?[1]?中所提出的堆疊沙漏網絡架構(stacked hourglass network),對于從圖像中提取 2D 特征以預測 3D 姿態非常有效。此外,受?[2]?的啟發,現有的 2D 人體姿態估計數據集可用于訓練 2D 人體姿態檢測器,該檢測器的特征提取層隨后可遷移到 3D 人體姿態估計網絡上。

為了直接從單目圖像中獲取準確的 3D 人體姿態,我們參考了文獻?[3]?的工作,該工作中介紹了堆疊沙漏網絡的體素形式。基于這種網絡架構,可以將在大型 2D 人體姿態數據上訓練好的 2D 檢測器提取的特征遷移到 3D 沙漏網絡中,使得該網絡僅需少量帶 3D 標簽的訓練數據,就可以對無標簽的視頻序列進行合理的估計。

與?[4]?中的網絡設置不同,我們的 3D 網絡直接從單幀圖像中輸出 3D 姿態,而無需將 2D 姿態作為中間結果,因此不需要 2D 關鍵點數據來微調 2D 檢測器或訓練 3D 網絡。圖 2 顯示了我們網絡的架構和初始化網絡的整個過程。

▲?圖2. 基線模型的網絡架構和初始化過程

軌跡補全

僅通過少量有標簽的 3D 數據訓練的網絡,就可以對無標簽的視頻序列進行初始預測。這些預測值可以被保存和擴充,用作偽標簽,以進行網絡的進一步(無監督)訓練。但是,由于對 3D 沙漏網絡的訓練不足,初始預測值會不夠精確。由于視頻序列中的人體姿態不是剛性的,并且具有低秩和時間平滑等特性,我們可以通過應用于 3D 軌跡的矩陣補全方法來優化初始預測值。

對初始預測值的優化可以看作一個矩陣補全問題。我們在一個視頻序列中,可以固定置信度較高的姿態預測值,并利用這些固定值,去補全置信度較低的預測值。我們結合了視頻中人體姿態的低秩性和時間平滑性,將該軌跡補全問題建模為以下優化問題:

其中 X 是優化目標,即包含一個視頻序列中三維人體姿態的矩陣。最小化 X 的核范數即使視頻序列中的人體姿態滿足低秩性。D 是一個主對角線的值均為 1、下主對角線均為 -1、其他位置均為 0 的對角矩陣,用以表達時間平滑性約束。E 為錯誤項。S 代表 3D 姿態的初始預測值,在優化過程中該矩陣內的值是不變的。?代表從矩陣中取置信度高的預測值、并將置信度低的預測值置 0 的操作。B 和 C 為自表達矩陣,二者相等。將二者分開表示是為了使優化過程中每個子問題都有閉式解。

為求解上述優化問題,我們使用增廣拉格朗日法(ALM)[5]。通過將上式轉化為增廣拉格朗日形式,可以將該優化問題分為 5 個子問題迭代求解。具體方法為輪番求解各子問題,在更新其中一個變量時固定其他所有變量,從而最終最小化損失函數。每個子問題都可以利用目前已經比較成熟的算法進行求解。

最終,ALM 收斂后,我們將 X 作為優化結果,并在模型的進一步訓練(微調)中使用優化的結果作為監督項。

模型微調

在前面的步驟中,我們將無標簽視頻序列的圖像輸入初始網絡以獲得 3D 預測,然后優化并保存這些預測。在進一步的模型微調步驟中,我們將這些優化后的預測值進行增廣,以“監督”初始網絡的進一步訓練。這些操作相當于自動為無標簽的視頻收集“標簽”。

然而,在優化的預測中仍然存在許多錯誤,且這些錯誤很可能會誤導網絡的進一步訓練。為了減輕這些錯誤的影響,我們根據每個預測的置信度對損失函數中的偽監督項進行加權,并對同一視頻中同一人的骨骼長一致性添加約束。這一步驟所使用的網絡的完整損失函數如下:

其中,?表示加權的偽監督項,U 表示基于骨骼長度的無監督項。對于加權偽監督項,由于我們將高置信度的初始預測值看作是準確的,我們不希望微調后的網絡對這部分數據的輸出值與初始預測值差距太大。

而我們的網絡的輸出為熱圖(heatmap),因此可以直接提取預測關節的熱圖的值作為置信度得分。進而,我們可以利用這些置信度得分對損失函數的偽監督項進行加權。其具體形式為:

其中??代表基于置信度得分的加權函數,定義為:

上式中的 τ 是一個 0~1 之間的值,被定義為置信度閾值。置信度高于該閾值的項被看作是準確預測,在損失函數中權重為 1。

對于骨骼長度項,我們可以取初始預測中每個視頻序列內人體的骨骼長度的中位數,作為網絡微調過程中的另一個監督項。在本文中我們選取 11 個較為穩定的骨骼(左右上下臂、左右上下腿、左右胯、頭長)作為該項的監督。骨骼長度損失項的具體形式為:

此外,在網絡的微調過程中,骨骼長度項的計算需要將網絡預測的熱圖中的坐標值取出,而一般的使用 argmax 操作的取坐標方法又是不可微分的。為了使微調過程中的網絡可以回傳參數,我們將 argmax 操作替換為?[6]?中所提出的 peak finding 操作,即將以最大得分的粗略位置為中心的立方體內的熱圖置信度得分的加權總和作為預測的關節坐標。

實驗結果

我們在兩個大型公開的三維人體姿態估計數據集——Human3.6M (H36M)?[7]?和 MPI-INF-3DP (3DHP)?[8]?上進行了實驗。

對于我們基線網絡的 2D 特征提取部分,我們使用了二維人體姿態估計數據集 MPII Human Pose?[9]?進行初始化。

對于三維姿態估計部分,我們首先使用數據集的訓練集中的一個小子集及其三維標簽進行全監督訓練,得出初始網絡。然后,將訓練集中剩下的數據看作無標簽的視頻序列,使用初始網絡對這些序列進行預測。接著,將不準確的預測值進行軌跡補全優化。最后用優化后的三維標簽作為監督項,結合骨骼長度項,對網絡進行微調。微調后的網絡在數據集的測試集上進行測試。

使用的評價指標為 MPJPE(平均關節位置誤差)、NMPJPE(骨架歸一化后的平均關節位置誤差)和 PMPJPE(將骨架進行 Procrustes 對齊后的平均關節位置誤差)。軌跡補全和不同數據劃分方式下的網絡微調結果展示如下。

3D 軌跡補全結果:對于 H36M,我們使用S1進行全監督訓練,對S5-8 進行預測和優化;對于 3DHP,我們使用 S1 進行全監督訓練,在 S2-8 上進行預測和優化。兩數據集優化前后的結果分別如表 1 和表 2 所示。可見軌跡補全過程發揮了作用,誤差降低了。另外,結果還表明,使用置信度分數可以選出更準確的預測值和優化值。

▲?表1.?H36M上的預測和優化結果

▲?表2.?3DHP上的預測和優化結果

以subject劃分數據的網絡微調結果:我們使用 H36M 的 S1 進行網絡初始化,使用無標簽的 S5-8 進行網絡微調。表 3 展示了這樣得出的最終模型在 H36M 測試集每個動作上的效果。可以看出,我們框架的每個組件(軌跡優化、加權監督和骨骼長度監督)都起到了增量的效果。

圖 3 是最終模型在 H36M 和 3DHP 上預測結果的可視化,其中綠色骨架為真值,紅色骨架為基線網絡的預測結果,藍色骨架為微調后最終模型的預測結果。可見最終結果明顯改進,并且更接近真值。

▲?表3.?在H36M上用S1初始化、S5-8微調的預測結果

▲?圖3.?S1有監督訓練、其余數據無監督訓練在H36M(前兩列)和3DHP(第三列)測試集上的預測結果

以 action 劃分數據的網絡微調結果:為測試我們的框架將模型遷移到新動作的能力,我們使用訓練數據集中一部分動作的有標簽數據進行網絡初始化、用剩下的動作的無標簽視頻序列進行模型的微調,并在測試集上對無標簽部分的動作進行測試。

我們采用了兩種動作劃分方式:1)用隨機的一半動作作為有標簽數據,另一半動作序列作為無標簽數據;2)用簡單的動作作為有標簽數據,困難動作序列作為無標簽數據。這兩種劃分方式在 H36M 上的結果如表 4 和表 5 所示。可見,模型可以成功地從無標簽視頻序列中學習到新的甚至是更困難的動作,即模型可以成功地被遷移到無標簽視頻序列中所表達的動作上來。

▲?表4.?H36M上使用隨機部分動作進行網絡初始化、剩下部分動作進行微調的預測結果

▲?表5.?H36M上使用簡單動作進行網絡初始化、困難動作進行微調的預測結果

跨數據集測試結果:在現實生活中一個更為常見的應用場景是,我們擁有某個數據集的有標簽數據用以進行全監督訓練得出一個模型,但需要在另一個沒有三維標簽、只能得到單目視頻序列的數據集上使用該模型,即跨數據集的使用場景。針對這一情況我們也進行了實驗。我們在 H36M 進行全監督訓練,使用 3DHP 上的一些無標簽視頻序列進行網絡微調,最后在 3DHP 上測試。最終,微調后的模型比未進行微調的模型性能提升了 25.6%。這對于沒有使用任何新數據集標簽這一困難的場景來說,是一個非常可觀的提升。

總結與思考

在本文中,我們介紹了一種用于單目單幀圖像 3D 人體姿態估計的框架,可通過自動收集無標簽的單目視頻的 3D 標簽,來提升三維人體姿態估計網絡的性能。

大量實驗證明了我們框架的有效性,表明它可以成功地幫助網絡從無標簽的單目視頻序列中學習新的 3D 人體姿態。當沒有足夠的有標簽數據、而有許多無標簽的單目視頻可用時,我們可以使用此框架來訓練 3D 人體姿態估計網絡。這也是現實生活中最常見的情況,充分說明了本文所提出的框架的應用價值。

參考文獻

[1] Alejandro Newell, Kaiyu Yang, and Jia Deng. Stacked hourglass networks for human pose estimation. In European conference on computer vision, pages 483–499. Springer, 2016.

[2] Dushyant Mehta, Helge Rhodin, Dan Casas, Pascal Fua, Oleksandr Sotnychenko, Weipeng Xu, and Christian Theobalt. Monocular 3d human pose estimation in the wild using improved cnn supervision. In 2017 International Conference on 3D Vision (3DV), pages 506–516. IEEE, 2017.

[3] Georgios Pavlakos, Xiaowei Zhou, Konstantinos G Derpanis, and Kostas Daniilidis. Coarse-to-fine volumetric prediction for single-image 3d human pose. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7025–7034, 2017.

[4] Dario Pavllo, Christoph Feichtenhofer, David Grangier, and Michael Auli. 3d human pose estimation in video with temporal convolutions and semi-supervised training. pages 7753–7762, 2019.

[5] Stephen Boyd, Neal Parikh, Eric Chu, Borja Peleato, Jonathan Eckstein, et al. Distributed optimization and statistical learning via the alternating direction method of multipliers. Foundations and Trends in Machine learning, 3(1):1–122, 2011.

[6] Xuanyi Dong, Shoou-I Yu, Xinshuo Weng, Shih-En Wei, Yi Yang, and Yaser Sheikh. Supervision-by-registration: An unsupervised approach to improve the precision of facial landmark detectors. In In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 360–368, 2018.

[7] Catalin Ionescu, Joao Carreira, and Cristian Sminchisescu. Iterated second-order label sensitive pooling for 3d human pose estimation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1661– 1668, 2014.

[8] Dushyant Mehta, Helge Rhodin, Dan Casas, Pascal Fua, Oleksandr Sotnychenko, Weipeng Xu, and Christian Theobalt. Monocular 3d human pose estimation in the wild using improved cnn supervision. In 2017 International Conference on 3D Vision (3DV), pages 506–516. IEEE, 2017.

[9] Mykhaylo Andriluka, Leonid Pishchulin, Peter Gehler, and Bernt Schiele. 2d human pose estimation: New benchmark and state of the art analysis. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3686–3693, 2014.

點擊以下標題查看更多往期內容:?

  • 通過多標簽相關性研究提升神經網絡視頻分類能力

  • ICCV 2019?| 適用于視頻分割的全新Attention機制

  • 從多視角RGB圖像生成三維網格模型Pixel2Mesh++

  • ICCV 2019 | 沉迷AI換臉?不如來試試“AI換衣”

  • ShapeMatchingGAN:打造炫酷動態的藝術字

  • ICCV 2019 | COCO-GAN: 通過條件坐標的部分圖像生成

#投 稿 通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

???? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 下載論文

總結

以上是生活随笔為你收集整理的ICCV 2019 | 基于无标签单目视频序列的单帧三维人体姿态估计算法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。