日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

视频理解综述:动作识别、时序动作定位、视频Embedding

發(fā)布時間:2023/12/14 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 视频理解综述:动作识别、时序动作定位、视频Embedding 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

選自丨機器之心

本文將介紹視頻理解中的三大基礎領域:動作識別(Action Recognition)、時序動作定位(Temporal Action Localization)和視頻 Embedding。

1.視頻理解背景

根據(jù)中國互聯(lián)網(wǎng)絡信息中心(CNNIC)第 47 次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》,截至 2020 年 12 月,中國網(wǎng)民規(guī)模達到 9.89 億人,其中網(wǎng)絡視頻(含短視頻)用戶規(guī)模達到 9.27 億人,占網(wǎng)民整體的 93.7%,短視頻用戶規(guī)模為 8.73 億人,占網(wǎng)民整體的 88.3%。

回顧互聯(lián)網(wǎng)近年來的發(fā)展歷程,伴隨著互聯(lián)網(wǎng)技術(特別是移動互聯(lián)網(wǎng)技術)的發(fā)展,內容的主流表現(xiàn)形式經(jīng)歷了從純文本時代逐漸發(fā)展到圖文時代,再到現(xiàn)在的視頻和直播時代的過渡,相比于純文本和圖文內容形式,視頻內容更加豐富,對用戶更有吸引力。

圖 1:互聯(lián)網(wǎng)內容表現(xiàn)形式的 3 個階段。本圖源于《深度學習視頻理解》

隨著近年來人們拍攝視頻的需求更多、傳輸視頻的速度更快、存儲視頻的空間更大,多種場景下積累了大量的視頻數(shù)據(jù),需要一種有效地對視頻進行管理、分析和處理的工具。視頻理解旨在通過智能分析技術,自動化地對視頻中的內容進行識別和解析。視頻理解算法順應了這個時代的需求。因此,近年來受到了廣泛關注,取得了快速發(fā)展。

視頻理解涉及生活的多個方面,目前視頻理解已經(jīng)發(fā)展成一個十分廣闊的學術研究和產業(yè)應用方向。受篇幅所限,本文將介紹視頻理解中的三大基礎領域: 動作識別 (Action Recognition)、時序動作定位(Temporal Action Localization) 和視頻 Embedding。

圖 2:視頻理解涉及的部分任務。本圖源于《深度學習視頻理解》

2. 動作識別(Action Recognition)

2.1 動作識別簡介

動作識別的目標是識別出視頻中出現(xiàn)的動作,通常是視頻中人的動作。視頻可以看作是由一組圖像幀按時間順序排列而成的數(shù)據(jù)結構,比圖像多了一個時間維度。動作識別不僅要分析視頻中每幀圖像的內容,還需要從視頻幀之間的時序信息中挖掘線索。動作識別是視頻理解的核心領域,雖然動作識別主要是識別視頻中人的動作,但是該領域發(fā)展出來的算法大多數(shù)不特定針對人,也可以用于其他視頻分類場景。

動作識別看上去似乎是圖像分類領域向視頻領域的一個自然延伸,深度學習盡管在圖像分類領域取得了舉世矚目的成功,目前深度學習算法在圖像分類上的準確率已經(jīng)超過普通人的水平,但是,深度學習在動作識別領域的進展并不像在圖像分類領域那么顯著,很長一段時間基于深度學習算法的動作識別準確率達不到或只能接近傳統(tǒng)動作識別算法的準確率。概括地講,動作識別面臨以下幾點困難:

  • 訓練視頻模型所需的計算量比圖像大了一個量級,這使得視頻模型的訓練時長和訓練所需的硬件資源相比圖像大了很多,導致難以快速用實驗進行驗證和迭代;

  • 在 2017 年,Kinetics 數(shù)據(jù)集 (Carreira & Zisserman, 2017) 誕生之前, 缺少大規(guī)模通用的視頻基準 (Benchmark) 數(shù)據(jù)集。在很長一段時間里,研究者都是在如 UCF-101 數(shù)據(jù)集 (Soomro et al., 2012) 上比較算法準 確率,而 UCF-101 只有 1.3 萬條數(shù)據(jù),共 101 個類別,平均每個類別只有約 100 個視頻,相比于圖像分類領域的 ImageNet 數(shù)據(jù)集有 128 萬 條數(shù)據(jù),共 1000 個類別,平均每個類別約有 1,000 個視頻,UCF-101 數(shù)據(jù)集顯得十分小。數(shù)據(jù)集規(guī)模制約了動作識別領域的發(fā)展;

  • 學習視頻中幀之間的時序關系,尤其是長距離的時序關系,本身就比較難。不同類型的動作變化快慢和持續(xù)時長有所不同,不同的人做同一個動作的方式也存在不同,同時相機拍攝角度和相機自身的運動也會對識別帶來挑戰(zhàn)。此外,不是視頻中所有的幀對于動作識別都有相同的作用,有許多幀存在信息冗余;

  • 網(wǎng)絡結構設計缺少公認的方案。圖像分類領域的網(wǎng)絡結構設計有一些公認的指導理念,例如,端到端訓練、小卷積核、從輸入到輸出空間分辨率不斷降低且通道數(shù)不斷增大等。然而,在動作識別領域,同時存在多個網(wǎng)絡設計理念,例如,幀之間的時序關系應該如何捕捉、使用 2D 卷積還是 3D 卷積、不同幀的特征應該如何融合等都還沒有定論。

2.2 基于 2D 卷積的動作識別

視頻是由一系列圖像幀(Frame)組成的,圖像分類模型經(jīng)過這些年的發(fā)展已經(jīng)相對成熟。如何進行視頻分類呢?一種直觀的想法是將圖像分類的模型直接運用到視頻分類中。如下圖所示,一個簡單的想法是先把視頻各幀提取出來,每幀圖像各自前饋(Feedforward)一個圖像分類模型,不同幀的圖像分類模型之間相互共享參數(shù)。得到每幀圖像的特征之后,對各幀圖像特征進行匯合(Pooling),例如采用平均匯合,得到固定維度的視頻特征,最后經(jīng)過一個全連接層和 Softmax 激活函數(shù)進行分類以得到視頻的類別預測。

圖 3:利用圖像分類模型和平均匯合進行動作識別網(wǎng)絡結構圖。本圖源于《深度學習視頻理解》

平均匯合方法十分簡單,其視頻分類的準確率與其他同時期專門為動作識別設計的深度學習模型相比差距并不大 (Karpathy et al., 2014) ,但是與傳統(tǒng)動作識別算法的準確率相比還有很大差距,不過后來專門為動作識別設計的深度學習模型的準確率高了很多。

最直觀的想法是先把視頻拆成一幀幀的圖像,每幀圖像各自用一個圖像分類模型得到幀級別的特征,然后用某種匯合方法從幀級別特征得到視頻級別特征,最后進行分類預測,其中的匯合方法包括: 平均匯合、NetVLAD/NeXtVLAD、NetFV、RNN、3D 卷積等。另外,我們可以借助一些傳統(tǒng)算法來補充時序關系,例如,雙流法利用光流顯式地計算幀之間的運動關系,TDD 利用 iDT 計算的軌跡進行匯合等。基于 2D 卷積的動作識別方法的一個優(yōu)點是可以快速吸收圖像分類領域的最新成果,通過改變骨架網(wǎng)絡,新的圖像分類模型可以十分方便地遷移到基于 2D 卷積的動作識別方法中。

圖 4:基于 2D 卷積的動作識別算法。本圖源于《深度學習視頻理解》

2.3 基于 3D 卷積的動作識別

另一方面,圖像是三維的,而視頻比圖像多了一維,是四維。圖像使用的是 2D 卷積,因此視頻使用的是 3D 卷積。我們可以設計對應的 3D 卷積神經(jīng)網(wǎng)絡,就像在圖像分類中利用 2D 卷積可以從圖像中學習到復雜的圖像表示一樣,利用 3D 卷積可以從視頻片段中同時學習圖像特征和相鄰幀之間復雜的時序特征,最后利用學到的高層級特征進行分類。

相比于 2D 卷積,3D 卷積可以學習到視頻幀之間的時序關系。我們可以將 2D 卷積神經(jīng)網(wǎng)絡擴展為對應的 3D 卷積神經(jīng)網(wǎng)絡,如 C3D、Res3D/3D ResNet、LTC、I3D 等。由于 3D 卷積神經(jīng)網(wǎng)絡的參數(shù)量和計算量比 2D 卷積神經(jīng)網(wǎng)絡大了很多,不少研究工作專注于對 3D 卷積進行低秩近似,如 FSTCN、P3D、R(2+1)D、S3D 等。TSM 對 2D 卷積進行改造以近似 3D 卷積的效果。3D 卷積 + RNN、ARTNet、Non-Local、SlowFast 等從不同角度學習視頻幀之間的時序關系。此外,多網(wǎng)格訓練和 X3D 等對 3D 卷積神經(jīng)網(wǎng)絡的超參數(shù)進行調整,使網(wǎng)絡更加精簡和高效。

圖 5:基于 3D 卷積的動作識別算法。本圖源于《深度學習視頻理解》

3. 時序動作定位(Temporal Action Localization)

時序動作定位 (Temporal Action Localization) 也稱為時序動作檢測 (Temporal Action Detection),是視頻理解的另一個重要領域。動作識別可以看作是一個純分類問題,其中要識別的視頻基本上已經(jīng)過剪輯(Trimmed),即每個視頻包含一段明確的動作,視頻時長較短,且有唯一確定的動作類別。而在時序動作定位領域,視頻通常沒有被剪輯(Untrimmed),視頻時長較長,動作通常只發(fā)生在視頻中的一小段時間內,視頻可能包含多個動作,也可能不包含動作,即為背景(Background) 類。時序動作定位不僅要預測視頻中包含了什么動作,還要預測動作的起始和終止時刻。相比于動作識別,時序動作定位更接近現(xiàn)實場景。

時序動作定位可以看作由兩個子任務組成,一個子任務是預測動作的起止時序區(qū)間,另一個子任務是預測動作的類別。由于動作識別領域經(jīng)過近年來的發(fā)展,預測動作類別的算法逐漸成熟,因此時序動作定位的關鍵是預測動作的起止時序區(qū)間,有不少研究工作專注于該子任務,ActivityNet 競賽除了每年舉辦時序動作定位競賽,還專門組織候選時序區(qū)間生成競賽(也稱為時序動作區(qū)間提名)。

既然要預測動作的起止區(qū)間,一種最樸素的想法是窮舉所有可能的區(qū)間,然后逐一判斷該區(qū)間內是否包含動作。對于一個 T 幀的視頻,所有可能的區(qū)間為 ,窮舉所有的區(qū)間會帶來非常龐大的計算量。

時序動作檢測的很多思路源于圖像目標檢測 (Object Detection),了解目標檢測的一些常見算法和關鍵思路對學習時序動作定位很有幫助。相比于圖像分類的目標是預測圖像中物體的類別,目標檢測不僅要預測類別,還要預測出物體在圖像中的空間位置信息,以物體外接矩形的包圍盒(Bounding Box) 形式表示。

3.1 基于滑動窗的算法

這類算法的基本思路是預先定義一系列不同時長的滑動窗,之后滑動窗在視頻上沿著時間維度進行滑動,并逐一判斷每個滑動窗對應的時序區(qū)間內具體是什么動作類別。圖 6 (a) 中使用了 3 幀時長的滑動窗,圖 6 (b) 中使用了 5 幀時長的滑動窗,最終匯總不同時長的滑動窗的類別預測結果。可以知道,該視頻中包含的動作是懸崖跳水、動作出現(xiàn)的起止時序區(qū)間在靠近視頻結尾的位置。

圖 6:基于滑動窗的算法流程圖。本圖源于《深度學習視頻理解》

如果對目標檢測熟悉的讀者可以聯(lián)想到,Viola-Jones 實時人臉檢測器 (Viola & Jones, 2004) 中也采用了滑動窗的思想,其先用滑動窗在圖像上進行密集滑動,之后提取每個滑動窗對應的圖像區(qū)域的特征,最后通過 AdaBoost 級聯(lián)分類器進行分類。Viola-Jones 實時人臉檢測器是計算機視覺歷史上具有里程碑意義的算法之一,獲得了 2011 年 CVPR(Computer Vision and Pattern Recognition,計算機視覺和模式識別)大會用于表彰十年影響力的 Longuet-Higgins 獎。

3.2 基于候選時序區(qū)間的算法

目標檢測算法中的兩階段 (Two-Stage) 算法將目標檢測分為兩個階段: 第一階段產生圖像中可能存在目標 的候選區(qū)域(Region Proposal),一般一張圖像可以產生成百上千個候選區(qū)域,這一階段和具體的類別無關; 第二階段逐一判斷每個候選區(qū)域的類別并對候選區(qū)域的邊界進行修正。

類比于兩階段的目標檢測算法,基于候選時序區(qū)間的時序動作定位算法也將整個過程分為兩個階段: 第一階段產生視頻中動作可能發(fā)生的候選時序區(qū)間; 第 二階段逐一判斷每個候選時序區(qū)間的類別并對候選時序區(qū)間的邊界進行修正。最終將兩個階段的預測結果結合起來,得到未被剪輯視頻中動作的類別和起止時刻預測。

圖 7:Faster R-CNN 和基于候選時序區(qū)間的方法類比。本圖源于《深度學習視頻理解》

3.3 自底向上的時序動作定位算法

基于滑動窗和基于候選時序區(qū)間的時序動作定位算法都可以看作是自頂向下的算法,其本質是預先定義好一系列不同時長的滑動窗或錨點時序區(qū)間,之后判斷每個滑動窗位置或錨點時序區(qū)間是否包含動作并對邊界進行微調以產生候選時序區(qū)間。這類自頂向下的算法產生的候選時序區(qū)間會受到預先定義的滑動窗或錨點時序區(qū)間的影響,導致產生的候選時序區(qū)間不夠靈活,區(qū)間的起止位置不夠精確。

本節(jié)介紹自底向上的時序動作定位算法,這類算法首先局部預測視頻動作開始和動作結束的時刻,之后將開始和結束時刻組合成候選時序區(qū)間,最后對每個候選時序區(qū)間進行類別預測。相比于自頂向下的算法,自底向上的算法預測的候選時序區(qū)間邊界更加靈活。了解人體姿態(tài)估計 (Human Pose Estimation) 的讀者可以聯(lián)想到,人體姿態(tài)估計也可以分為自頂向下和自底向上兩類算法,其中自頂 向下的算法先檢測出人的包圍盒,之后對每個包圍盒內檢測人體骨骼關鍵點,如 (Chen et al., 2018) 等; 自底向上的算法先檢測所有的人體骨骼關鍵點,之后再組合成人,如 (Cao et al., 2021) 等。

BSN(Boundary Sensitive Network,邊界敏感網(wǎng)絡)(Lin et al., 2018b)是自底向上的時序動作定位算法的一個實例,BSN 獲得了 2018 年 ActivityNet 時序動作定位競賽的冠軍和百度綜藝節(jié)目精彩片段預測競賽的冠軍。

圖 8:BSN 網(wǎng)絡結構圖。本圖源于《深度學習視頻理解》

3.4 對時序結構信息建模的算法

假設我們的目標是識別視頻中的體操單跳 (Tumbling) 動作和對應的動作起止區(qū)間,見圖 9 中的綠色框。圖 9 中的藍色框表示模型預測的候選時序區(qū)間,有的候選時序區(qū)間時序上并不完整,即候選時序區(qū)間并沒有覆蓋動作完整的起止過程。圖 9 上半部分的算法直接基于候選時序區(qū)間內的特征對候選時序區(qū)間內的動作類別進行預測,導致模型一旦發(fā)現(xiàn)任何和單跳動作有關的視頻片段,就會輸出很高的置信度,進而導致時序定位不夠精準。

圖 9:SSN 對動作不同的階段進行建模。本圖源于(Zhao et al., 2020)

SSN(Structured Segment Network,結構化視頻段網(wǎng)絡)算法 (Zhao et al., 2020) 對動作不同的階段 (開始、過程、結束) 進行建模,SSN 不僅會預測候選時序區(qū)間內的動作類別,還會預測候選時序區(qū)間的完整性,這樣做的好處是可以更好地定位動作開始和結束的時刻,SSN 只在候選時序區(qū)間和動作真實起止區(qū)間對齊的時候輸出高置信度。

3.5 逐幀預測的算法

我們希望模型對動作時序區(qū)間的預測能夠盡量精細。CDC (Convolutional-De-Convolutional networks,卷積 - 反卷積網(wǎng)絡)算法 (Shou et al., 2017) 和前文介紹的其他算法的不同之處在于,CDC 可以對未被剪輯的視頻逐幀預測動作的類別,這種預測粒度十分精細,使得對動作時序區(qū)間邊界的定位更加精確。

如圖 10 所示,輸入一個未被剪輯的視頻,首先利用動作識別網(wǎng)絡提取視頻特征,之后利用多層 CDC 層同時對特征進行空間維度的下采樣和時間維度的上采樣,進而得到視頻中每幀的預測結果,最后結合候選時序區(qū)間得到動作類別和起止時刻的預測。CDC 的一個優(yōu)點是預測十分高效,在單 GPU 服務器下,可以達到 500 FPS(Frames per Second,幀每秒)的預測速度。

圖 10:CDC 網(wǎng)絡結構圖。本圖源于《深度學習視頻理解》

3.6 單階段算法

目標檢測算法可以大致分為兩大類,其中一大類算法為兩階段算法,兩階段算法會先從圖像中預測可能存在目標的候選區(qū)域,之后逐一判斷每個候選區(qū)域的類別,并對候選區(qū)域邊界進行修正。時序動作定位中也有一些算法采用了兩階段算法的策略,先從視頻中預測可能包含動作的候選時序區(qū)間,之后逐一判斷每個候選時序區(qū)間的類別,并對候選時序區(qū)間的邊界進行修正,這部分算法已在 3.2 節(jié)介紹過。

另一大類算法為單階段 (One-Stage) 算法,單階段算法沒有單獨的候選區(qū)域生成的步驟,直接從圖像中預測。在目標檢測領域中,通常兩階段算法識別精度高,但是預測速度慢,單階段算法識別精度略低,但是預測速度快。時序動作定位中也有一些算法采用了單階段算法的策略。

到此為止,我們了解了許多時序動作定位算法,一種直觀的想法是預先定義一組不同時長的滑動窗,之后滑動窗在視頻上進行滑動,并逐一判斷每個滑動窗對應的時序區(qū)間內的動作類別,如 S-CNN。TURN 和 CBR 以視頻單元作為最小計算單位避免了滑動窗帶來的冗余計算,并且可以對時序區(qū)間的邊界進行修正; 受兩階段目標檢測算法的啟發(fā),基于候選時序區(qū)間的算法先從視頻中產生一些可能包含動作的候選時序區(qū)間,之后逐一判斷每個候選時序區(qū)間內的動作類別,并對區(qū)間邊界進行修正,如 R-C3D 和 TAL-Net; 自底向上的時序動作定位算法先預測動作開始和結束的時刻,之后將開始和結束時刻組合為候選時序區(qū)間,如 BSN、TSA-Net 和 BMN;SSN 不僅會預測每個區(qū)間的動作類別,還會 預測區(qū)間的完整性; CDC 通過卷積和反卷積操作可以逐幀預測動作類別。此外,單階段目標檢測的思路也可以用于時序動作定位中,如 SSAD、SS-TAD 和 GTAN。

圖 11:時序動作定位算法。本圖源于《深度學習視頻理解》

4. 視頻 Embedding

Embedding 直譯為嵌入,這里譯為向量化更貼切。視頻 Embedding 的目標是從視頻中得到一個低維、稠密、浮點的特征向量表示,這個特征向量是對整個視頻內容的總結和概括。其中,低維是指視頻 Embedding 特征向量的維度比較低,典型值如 128 維、256 維、512 維、1024 維等; 稠密和稀疏 (Sparse) 相對,稀疏是指特征向量中有很多元素為 0,稠密是指特征向量中很多元素為非 0; 浮點是指特征向量中的元素都是浮點數(shù)。

不同視頻 Embedding 之間的距離 (如歐式距離或余弦距離) 反映了對應視頻之間的相似性。如果兩個視頻的語義內容接近,則它們的 Embedding 特征之間的距離近,相似度高; 反之,如果兩個視頻不是同一類視頻,那么它們的 Embedding 特征之間的距離遠,相似度低。在得到視頻 Embedding 之后,可以用于視頻推薦系統(tǒng)、視頻檢索、視頻侵權檢測等多個任務中。

動作識別和時序動作定位都是預測型任務,即給定一個視頻,預測該視頻中出現(xiàn)的動作,或者更進一步識別出視頻中出現(xiàn)的動作的起止時序區(qū)間。而視頻 Embedding 是一種表示型任務,輸入一個視頻,模型給出該視頻的向量化表示。視頻 Embedding 算法可以大致分為以下 3 大類。

第一類方法基于視頻內容有監(jiān)督地學習視頻 Embedding。我們基于視頻的類別有監(jiān)督地訓練一個動作識別網(wǎng)絡,之后可以從網(wǎng)絡的中間層 (通常是全連接層) 提取視頻 Embedding。這類方法的重點在于動作識別網(wǎng)絡的設計。

第二類方法基于視頻內容無監(jiān)督地學習視頻 Embedding。第一類方法需要大量的視頻標注,標注過程十分耗時、耗力,這類方法不需要額外的標注,從視頻自身的結構信息中學習,例如,視頻重建和未來幀預測、視頻幀先后順序驗證、利用視頻 和音頻信息、利用視頻和文本信息等。

第三類方法通過用戶行為學習視頻 Embedding。如果我們知道每個用戶的視頻觀看序列,由于用戶有特定類型的視頻觀看喜好,用戶在短時間內一起觀看的視頻通常有很高的相似性,利用用戶觀看序列信息,我們可以學習得到視頻 Embedding。

其中,第一類和第二類方法基于視頻內容學習視頻 Embedding,它們的優(yōu)點是沒有視頻冷啟動問題,即一旦有新視頻產生,就可以計算該視頻的 Embedding 用于后續(xù)的任務中。例如,這可以對視頻推薦系統(tǒng)中新發(fā)布的視頻給予展示機會; 基于內容的視頻 Embedding 的另一個優(yōu)點是對所有的視頻“一視同仁”,不會推薦過于熱門的視頻。另外,也可以為具有小眾興趣愛好的用戶進行推薦。

一旦新視頻獲得了展示機會,積累了一定量的用戶反饋 (即用戶觀看的行為數(shù)據(jù)) 之后,我們就可以用第三類方法基于用戶行為數(shù)據(jù)學習視頻 Embedding, 有時視頻之間的關系比較復雜,有些視頻雖然不屬于同一個類別,但是它們之間存在很高的相似度,用戶常常喜歡一起觀看。基于用戶行為數(shù)據(jù)學習的視頻 Embedding 可以學習到這種不同類別視頻之間的潛在聯(lián)系。

第三大類方法通過用戶行為學習視頻 Embedding,其中 Item2Vec 將自然語言處理中經(jīng)典的 Word2Vec 算法用到了用戶行為數(shù)據(jù)中,并在后續(xù)工作中得到了優(yōu)化,DeepWalk 和 Node2Vec 基于圖的隨機游走學習視頻 Embedding,是介于圖算法和 Item2Vec 算法之間的過渡,LINE 和 SDNE 可以學習圖中結點的一階和二階相似度,GCN GraphSAGE 和 GAT 等將卷積操作引入到了圖中,YouTube 召回模型利用多種信息學習視頻 Embedding。

圖 12:視頻 Embedding 算法。本圖源于《深度學習視頻理解》

推薦閱讀:

我的2022屆互聯(lián)網(wǎng)校招分享

我的2021總結

淺談算法崗和開發(fā)崗的區(qū)別

互聯(lián)網(wǎng)校招研發(fā)薪資匯總

對于時間序列,你所能做的一切.

什么是時空序列問題?這類問題主要應用了哪些模型?主要應用在哪些領域?

公眾號:AI蝸牛車

保持謙遜、保持自律、保持進步

發(fā)送【蝸牛】獲取一份《手把手AI項目》(AI蝸牛車著)

發(fā)送【1222】獲取一份不錯的leetcode刷題筆記

發(fā)送【AI四大名著】獲取四本經(jīng)典AI電子書

總結

以上是生活随笔為你收集整理的视频理解综述:动作识别、时序动作定位、视频Embedding的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。