日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > 目标检测 >内容正文

目标检测

深度学习和目标检测系列教程 22-300:关于人体姿态常见的估计方法

發(fā)布時(shí)間:2024/10/8 目标检测 209 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度学习和目标检测系列教程 22-300:关于人体姿态常见的估计方法 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

@Author:Runsen

姿態(tài)估計(jì)是計(jì)算機(jī)視覺(jué)中的一項(xiàng)流行任務(wù),比如真實(shí)的場(chǎng)景如何進(jìn)行人體跌倒檢測(cè),如何對(duì)手語(yǔ)進(jìn)行交流。

作為人工智能(AI)的一個(gè)領(lǐng)域,計(jì)算機(jī)視覺(jué)使機(jī)器能夠以模仿人類視覺(jué)為目的來(lái)執(zhí)行圖像處理任務(wù)。

在傳統(tǒng)的物體檢測(cè)中,人們只會(huì)被感知為一個(gè)邊界框(一個(gè)正方形)。通過(guò)執(zhí)行姿勢(shì)檢測(cè)和姿勢(shì)跟蹤,計(jì)算機(jī)可以理解人體語(yǔ)言。然而,傳統(tǒng)的姿勢(shì)跟蹤方法既不夠快,也不夠穩(wěn)健,無(wú)法實(shí)現(xiàn)遮擋。

高性能實(shí)時(shí)姿勢(shì)檢測(cè)和跟蹤將推動(dòng)計(jì)算機(jī)視覺(jué)領(lǐng)域的一些最大趨勢(shì)。例如,實(shí)時(shí)跟蹤人體姿勢(shì)將使計(jì)算機(jī)能夠?qū)θ祟愋袨檫M(jìn)行更細(xì)粒度、更自然的理解。

這將對(duì)各個(gè)領(lǐng)域產(chǎn)生重大影響,例如在自動(dòng)駕駛領(lǐng)域,通過(guò)實(shí)時(shí)人體姿勢(shì)檢測(cè)和跟蹤,計(jì)算機(jī)能夠更好地理解和預(yù)測(cè)行人行為——從而實(shí)現(xiàn)更自然的駕駛。

人體姿態(tài)估計(jì)旨在預(yù)測(cè)圖像或視頻中人體部位和關(guān)節(jié)的姿態(tài)。由于姿勢(shì)運(yùn)動(dòng)通常由某些特定的人類動(dòng)作驅(qū)動(dòng),因此了解人類的身體姿勢(shì)對(duì)于動(dòng)作識(shí)別至關(guān)重要。

二維人體姿態(tài)估計(jì)用于從圖像和視頻等視覺(jué)對(duì)象中估計(jì)人體關(guān)鍵點(diǎn)的二維位置或空間位置。傳統(tǒng)的 2D 人體姿態(tài)估計(jì)方法對(duì)各個(gè)身體部位使用不同的手工特征提取技術(shù)。

基于現(xiàn)代深度學(xué)習(xí)的方法通過(guò)顯著提高單人和多人姿勢(shì)估計(jì)的性能取得了重大突破。一些流行的 2D 人體姿態(tài)估計(jì)方法包括 OpenPose、CPN、AlphaPose 和 HRNet。

在人體姿勢(shì)估計(jì)中,人體部位的位置用于根據(jù)視覺(jué)輸入數(shù)據(jù)構(gòu)建人體表示(例如身體骨架姿勢(shì))。因此,人體建模是人體姿態(tài)估計(jì)的一個(gè)重要方面。它用于表示從視覺(jué)輸入數(shù)據(jù)中提取的特征和關(guān)鍵點(diǎn)。通常,基于模型的方法用于描述和推斷人體姿勢(shì)并渲染 2D 或 3D 姿勢(shì)。

大多數(shù)方法使用 N 關(guān)節(jié)剛性運(yùn)動(dòng)學(xué)模型,其中人體被表示為具有關(guān)節(jié)和四肢的實(shí)體,包含身體運(yùn)動(dòng)學(xué)結(jié)構(gòu)和身體形狀信息。

人體建模的模型分為三種:

  • Kinematic Model 運(yùn)動(dòng)學(xué)模型,也稱為基于骨架的模型,用于 2D 姿態(tài)估計(jì)和 3D 姿態(tài)估計(jì)。這種靈活直觀的人體模型包括一組關(guān)節(jié)位置和四肢方向來(lái)表示人體結(jié)構(gòu)。因此,骨骼姿態(tài)估計(jì)模型用于捕捉不同身體部位之間的關(guān)系。然而,運(yùn)動(dòng)學(xué)模型在表示紋理或形狀信息方面受到限制。

  • Planar Model 用于二維姿態(tài)估計(jì)的平面模型或基于輪廓的模型。平面模型用于表示人體的外觀和形狀。通常,身體部位由多個(gè)近似人體輪廓的矩形表示。一個(gè)流行的例子是活動(dòng)形狀模型(ASM),它使用主成分分析來(lái)捕獲完整的人體圖和輪廓變形。

  • Volumetric model 體積模型,用于 3D 姿態(tài)估計(jì)。存在多種流行的 3D 人體模型,用于基于深度學(xué)習(xí)的 3D 人體姿態(tài)估計(jì)以恢復(fù) 3D 人體網(wǎng)格。例如,著名的GHUM和 GHUML(ite) 是完全可訓(xùn)練的端到端深度學(xué)習(xí)管道,在超過(guò) 60,000 個(gè)人體配置的全身掃描高分辨率數(shù)據(jù)集上進(jìn)行訓(xùn)練,以對(duì)統(tǒng)計(jì)的和鉸接的 3D 人體形狀進(jìn)行建模和姿勢(shì)。

    姿勢(shì)估計(jì)通過(guò)找到人或物體的關(guān)鍵點(diǎn)來(lái)操作。以一個(gè)人為例,關(guān)鍵點(diǎn)是肘部、膝蓋、手腕等關(guān)節(jié)。姿勢(shì)估計(jì)有兩種類型:多姿勢(shì)和單姿勢(shì)。單姿態(tài)估計(jì)用于估計(jì)給定場(chǎng)景中單個(gè)物體的姿態(tài),而多姿態(tài)估計(jì)用于檢測(cè)多個(gè)物體的姿態(tài)。

流行的MS COCO 數(shù)據(jù)集上的人體姿態(tài)估計(jì)可以檢測(cè) 17 個(gè)不同的關(guān)鍵點(diǎn)(類)。每個(gè)關(guān)鍵點(diǎn)都用三個(gè)數(shù)字 (x,y,v) 進(jìn)行注釋,其中 x 和 y 標(biāo)記坐標(biāo),v 表示關(guān)鍵點(diǎn)是否可見(jiàn)。

"nose", "left_eye", "right_eye", "left_ear", "right_ear", "left_shoulder", "right_shoulder", "left_elbow", "right_elbow", "left_wrist", "right_wrist", "left_hip", "right_hip", "left_knee", "right_knee", "left_ankle", "right_ankle"

基于深度學(xué)習(xí)的姿態(tài)估計(jì)方法

由于姿態(tài)估計(jì)是一種易于應(yīng)用的計(jì)算機(jī)視覺(jué)技術(shù),我們可以使用現(xiàn)有架構(gòu)實(shí)現(xiàn)自定義姿態(tài)估計(jì)器。幫助您開(kāi)始開(kāi)發(fā)自定義姿態(tài)估計(jì)器的現(xiàn)有架構(gòu)包括:

  • HRNet:高分辨率網(wǎng)絡(luò) (HRNet)是一種用于人體姿態(tài)估計(jì)的神經(jīng)網(wǎng)絡(luò)。它是一種用于圖像處理問(wèn)題的體系結(jié)構(gòu),用于查找我們所知道的關(guān)于圖像中特定對(duì)象或人的關(guān)鍵點(diǎn)(關(guān)節(jié))。這種架構(gòu)相對(duì)于其他架構(gòu)的一個(gè)優(yōu)點(diǎn)是,大多數(shù)現(xiàn)有方法將低分辨率表示中的姿勢(shì)的高分辨率表示與使用高低分辨率網(wǎng)絡(luò)相匹配。代替這種偏差,神經(jīng)網(wǎng)絡(luò)在估計(jì)姿勢(shì)時(shí)保持高分辨率表示。例如,這種 HRNet 架構(gòu)有助于檢測(cè)電視體育賽事中的人體姿勢(shì)。

  • OpenPose是最流行的自下而上的多人人體姿勢(shì)估計(jì)方法之一。該架構(gòu)具有實(shí)時(shí)、多人姿勢(shì)估計(jì)的特點(diǎn)。OpenPose 是一個(gè)開(kāi)源的實(shí)時(shí)多人檢測(cè),在檢測(cè)身體、腳、手和面部關(guān)鍵點(diǎn)方面具有很高的準(zhǔn)確性。OpenPose 的一個(gè)優(yōu)點(diǎn)是它是一個(gè) API,它使用戶可以靈活地從攝像頭字段、網(wǎng)絡(luò)攝像頭等中選擇源圖像,更重要的是對(duì)于嵌入式系統(tǒng)應(yīng)用程序(例如,與 CCTV 攝像頭和系統(tǒng)的集成)。它支持不同的硬件架構(gòu),例如 CUDA GPU、OpenCL GPU 或 CPU-only 設(shè)備。

  • DeepCut是另一種流行的自下而上的多人人體姿勢(shì)估計(jì)方法。DeepCut 用于檢測(cè)多人的姿勢(shì)。該模型的工作原理是檢測(cè)圖像中的人數(shù),然后預(yù)測(cè)每個(gè)圖像的關(guān)節(jié)位置。DeepCut 可以應(yīng)用于多人/物體的視頻或圖像,例如足球、籃球等區(qū)域多人姿勢(shì)估計(jì)。

  • AlphaPose 是一種流行的自上而下的姿勢(shì)估計(jì)方法。在存在不準(zhǔn)確的人體邊界框的情況下檢測(cè)姿勢(shì)很有用。也就是說(shuō),它是通過(guò)最佳檢測(cè)邊界框估計(jì)人體姿勢(shì)的最佳架構(gòu)。AlphaPose 架構(gòu)適用于檢測(cè)圖像或視頻領(lǐng)域中的單人和多人姿勢(shì)。

  • DeepPose是一個(gè)利用深度神經(jīng)網(wǎng)絡(luò)的人體姿勢(shì)估計(jì)器。DeepPose 的深度神經(jīng)網(wǎng)絡(luò) (DNN) 捕獲所有關(guān)節(jié),鉸接一個(gè)池化層、一個(gè)卷積層和一個(gè)全連接層以形成這些層的一部分。

  • PoseNet 是一種基于 tensorflow.js 的姿態(tài)估計(jì)器架構(gòu),可在瀏覽器或移動(dòng)設(shè)備等輕量級(jí)設(shè)備上運(yùn)行。因此,PoseNet可以被用來(lái)估計(jì)任何一個(gè)單個(gè)姿態(tài)或多個(gè)姿態(tài)。

  • DensePose是一種姿態(tài)估計(jì)技術(shù),旨在將 RGB 圖像的所有人體像素映射到人體的 3D 表面。DensePose 也可用于單個(gè)和多個(gè)姿態(tài)估計(jì)問(wèn)題。

總結(jié)

以上是生活随笔為你收集整理的深度学习和目标检测系列教程 22-300:关于人体姿态常见的估计方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。