日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

管中窥“视频”,“理解”一斑 —— 视频理解概览

發布時間:2024/10/8 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 管中窥“视频”,“理解”一斑 —— 视频理解概览 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者|Lingyun Zeng

學校|北京航空航天大學

研究方向|計算機視覺

本文通過對視頻理解/分類(Video Understanding/Classification)的基礎和經典論文進行梳理,幫助把握整體發展走向。


背景

隨著通信技術的發展,目前已進入全民視頻&音頻時代,各種短視頻、中視頻應用崛起,占據了大部分生活時間;深度學習視覺技術的研究焦點,也從單純的圖片向視頻、多模態領域傾斜。


視頻理解基礎

2.1 3D卷積?

  • 3D 卷積和 2D 卷積的區別:3D 卷積核多了一層深度的維度,用以提取時間序列信息(包含光流變化等)?

  • 2D 卷積核 shape:(channels,k_height,k_width)?

  • 3D 卷積核 shape:(channels,k_depth,k_height,k_width) ,與 2D 卷積核的本質區別在于是否在 depth 維度進行滑動(可以把 2D 卷積看作 3D 卷積的特殊形式)?

2.2 模型評價標準?

視頻分類 metric:和圖片分類類似,使用 top1,top5 accuracy 評價。

2.3 常用數據集

2.4 經典模型?

2.4.1 DT及iDT算法(手工提特征,非深度學習方法)?

● DT算法?

流程:密集采樣特征點,特征點軌跡跟蹤,軌跡特征提取。?

1. 密集采樣特征點:使用網格劃分的方法,在二維圖像上進行特征點采樣。同時設置閾值,去除缺乏變化區域的采樣點(缺乏變化區域的特征點后續難以在時間序列上進行跟蹤,e.g. 白色墻壁中心的點)。?

2. 特征點軌跡跟蹤:通過計算特征點運動方向,得到軌跡向量。特征點運動方向計算公式:,其中 , 和 代表光流方向,M 為中值濾波。即運動方向是以特征點領域內光流中值確定的。

3. 軌跡特征提取:對每幀圖像中特征點領域進一步進行網絡劃分,提取 HOG, HOF, MBH 特征,并對特征歸一化后進行編碼。

4. 使用 SVM 對編碼后的視頻特征進行分類。

●?iDT算法?

在 DT 算法上進行改進:光流圖像優化,特征歸一化方式改進,特征編碼方式改進(目前一些深度學習方法 ensamble iDT 后會有提升)。

1. 光流圖像優化:由于相機運動,背景也存在很多軌跡信息,會對前景的特征采樣造成影響。因此 iDT 專門去除了背景上的特征點。(通過估計相機運動,來消除背景區域的光流);?

2. 特征歸一化方式改進:使用 L1 正則后再開方,提升約0.5%。(DT 算法使用 L2 范式進行歸一化);?

3. 特征編碼方式改進:使用 Fisher Vector 方式編碼(DT 算法使用 Bag of Features)。

1.4.2 P3D模型

論文標題:

Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

論文來源:

ICCV 2017

論文鏈接:

https://arxiv.org/abs/1711.10305

代碼鏈接:

https://github.com/ZhaofanQiu/pseudo-3d-residual-networks

提出了 3 種 3d 殘差卷積塊,將 3x3x3 的 3D conv 解耦成 1x3x3 的空間卷積(即“S”)以及3x3x1的時間卷積(即“T”),便于減少計算量和使用預訓練模型。?

1.4.3 R(2+1)D模型?

論文標題:

A Closer Look at Spatiotemporal Convolutions for Action Recognition

論文來源:

CVPR 2018

論文鏈接:

https://arxiv.org/abs/1711.11248

代碼鏈接:

https://github.com/facebookresearch/VMZ

證明了在殘差網絡結構中,3D 卷積優于 2D 卷積(對于動作識別任務而言);證明了分解 3D conv 為 spatial conv 和 temporal conv 能顯著提升準確率。?


  • R2D:4 維張量 reshape 成 3 維張量處理;?

  • MCx:認為動作建模在淺層更必要;?

  • rMCx:認為動作建模在深層更必要;?

  • R3D:在所有層都使用 3D conv 進行動作建模;?

  • R(2+1)D:3D conv 解耦為 2D conv 和 1D conv。

    • 好處:(a) 解耦后增加 relu 層,增加了非線性操作,提升網絡表達能力 (b)解耦之后更容易優化,loss 更低。



視頻理解-經典論文梳理

3.1 ICCV 2015

論文標題:

Unsupervised Learning of Visual Representations using Videos

所屬領域:

無監督學習(利用視頻數據,ICCV 2015)?

論文鏈接:

https://xiaolonw.github.io/papers/unsupervised_video

代碼鏈接:

https://github.com/xiaolonw/caffe-video_triplet

Background

大量視覺任務使用監督學習或者半監督的方法來提取特征,并且大部分基于?image。?

Motivation

1. 目前無監督學習無法趕超監督學習, 瓶頸在哪里?

2. 人類視覺是從動態的感知信息而不是靜態圖片中獲取信息的,CNN 能否也從對動態感知(即視頻數據)的學習中得到提升??

Method

提出了 siamese network,三個子網絡共享權重,和 AlexNet 結構類似,在 pool5 后面接了 4096 和 1024 維的全連接層,即每個視頻 patch 最終被映射為 1024 維的向量。?

Input:pair of patches(size:227x227,從視頻幀中提取)?

Output:3 個 1024 維向量?

Loss Function:正則化項 +cos 距離項?

其中,W:權重 weight,:track 的起始兩個 patch,:從其他 video 中隨機選取的 patch(用來 triplet),:兩個 patch 的 cos 距離,M:兩個距離的 gap 超參,設置為 0.5。

Details

1. 提取感興趣的 patch(即包含我們想要的 motion 的部分),并跟蹤這些patches,以此來創建 train instances。

● 提取 patch:采用 two-step approach:

(1)獲取 SURF 特征點,然后使用 IDT [1] 中單應性估計方法獲取每個 SURF 特征點的軌跡。

說明:之所以使用這個方法,是因為 youtube 視頻包含很多相機移動的噪聲。IDT 這一步專門去除了相機運動信息。?

(2)獲取了 SURF 點的軌跡后,將移動幅度大于 0.5 像素的點歸類為 “moving” 。

(3)幀過濾:過濾掉(a)包含 moving 類的 SURF 點低于 25%(可能這些是噪聲點) 和(b)包含 moving 類的 SURF 點高于 75% 的幀(可能都是相機的運動)。?

(4)用 227x227 的 bbox 做 sliding window,提取包含最多 moving 點的 bbox 作為該幀的 patch。

● tracking:?

使用 KDF tracker [2] 對前面獲得的 patch 進行跟蹤,track 的第一幀和最后一幀會作為 pair of patches 進行訓練。

2. 如何選擇 negative 樣本?

(1)先隨機選擇:對每個 pair of patches,在同一個 batch 中隨機選擇 K 個 patch 作為 negative patch,得到 K 個 triplet。每個 epoch 都進行 shuffle,確保每 個pair of patches 都能和不同的 negative patch 組合。

(2)訓練大概 10 個 epoch 后,進行 hard negative mining。對每個 pair of patches,將它們和同一個 batch 中其他的 patches 過網絡前向計算,根據 loss (下圖 loss)的大小進行排序,選取 loss 最大的前 K 個(此處 K=4)patch 作為 negative patch。使用這 K 個 patches 進行后續的訓練。

3. 如何將這個網絡應用到監督學習的任務?

(1)方法一:直接將 triplet network 作為預訓練網絡,修改輸出層適應不同任務。

(2)方法二:迭代式訓練。先用 triplet 做預訓練,再將 finetuned network 拿來跑 triplet,最后再對應的任務上做 finetune。?

4. 訓練設置?

Dataset: Youtube, 100K videos。提取出 8million 的 patches,后續做 finetune 實驗分別使用 1.5M / 5M / 8M 的數據;Batchsize:100 ;初始 LR rate:0.001。

Results

1. 直接使用 VOC 訓練,mAP 44.0%;ensemble 3 個模型后,mAP 47.3%(+3.3)。

2. 無監督方法的預訓練模型 +VOC finetune, mAP 46.2%;增加無監督訓練數據后,mAP 47.0%(+0.8)以及 47.5%(+1.3),證明無監督模型對特征提取有益。

3. 在 VOC 上 retrieval rate 40%(ImageNet 預訓練模型:62%,但是它已經學習過 semantics 了)。

可視化結果:使用 VOC 2012 val 做 query,然后從訓練數據中找 cos 距離最近的 5 張圖。?

3.2 ECCV 2016

論文標題:

TSN-Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

所屬領域:

動作/行為識別(基于視頻,ECCV 2016)

?

論文鏈接:

https://arxiv.org/abs/1608.00859

代碼鏈接:

https://github.com/ZJCV/TSN

Background

基于圖片的動作識別已經取得了良好效果,但基于視頻的研究并沒有太大突破。作者認為主要瓶頸在于以下三個方面:?

1. 長時間段的視頻結構包含了豐富的動態行為信息,但目前的主流研究方法,在實際應用中,受限于計算資源的限制,只能基于短時間段的序列,會丟失一些長時間段中的信息。?大部分在這個方面進行的研究,基于密集的時間間隔采樣:會帶來巨大的計算開銷,在實際應用場景中不適合。?

2. 好的網絡模型需要大量的訓練數據,目前(論文發表時)只有 UCF101, HMDB51 數據集,數據量和類別種類都不夠。?

3. 視頻的動作分類模型還沒有深層網絡(相比于圖像分類模型來說),訓練深層網絡容易造成過擬合。?

Motivation

1. 設計一種高效的,適用于長時間段視頻的模型;?

2. 在有限的訓練數據下實現卷積網絡的學習。?

Methods

設計了一種 two-stream architecture 的模型,主要創新點在于對完整視頻段進行分割,再對分割段的預測結果進行整合,從而實現了利用少量幀信息即可獲取完整視頻信息的目的,在滿足資源限制的條件下實現對完整視頻段特征的學習。?

損失函數:?

將每個 Video 劃分為 K 個 segments,然后從每個 segment 里隨機挑選幀組成 snippet,對這些 snippet 分類,聚合分類結果作為視頻的分類結果。?

Experiment

視頻的光流特征使用 OpenCV TVL1 optical flow algorithm 進行提取。

1. 對輸入模式和訓練策略進行實驗,結論:?

(1)使用 Cross modality 和 partial BN with dropout 的方案可以提升精度;?

(2)融合光流、wrap 光流、RGB 輸入的結果精度最高,92.3%(加 RGB difference 會掉點,如果對計算資源有嚴格要求的時候可以考慮使用) 。

2. 聚合函數探索,結論:average 最好。

3. 在 UCF101 上精度 94.2%,HMDB51 69.4%。

3.3 ICCV 2019

論文標題:

SlowFast Networks for Video Recognition

所屬領域:

視頻識別(FAIR,ICCV 2019)

?

論文鏈接:

https://arxiv.org/abs/1812.03982

代碼鏈接:

https://github.com/facebookresearch/SlowFast

Background

目前視頻識別的工作可以分為 3 個方向:利用 3D conv 等來整合時間序列上的信息;使用光流特征來進行學習;two-stream 的網絡結構。

Motivation

1. 受啟發于生物學結論:人眼對于快慢動作信息有兩套不同的 path 進行處理,fast path 聚焦快速動作信息,忽略顏色紋理信息,slow path 聚焦顏色紋理,忽略動作。?

2. 常見的 two-stream 結構需要手工提取光流信息,能否設計一種 end-to-end 的網絡結構??

Methods

設計了一種 end-to-end 的視頻分類網絡,包含 Slow 和 Fast 兩條學習路徑,Slow path 的數據是低幀率的,主要學習空間紋理、顏色信息;Fast Path 是高幀率的,負責學習時間維度上的動作信息。最后對兩路學習結果進行 fuse。?

設置 Fast Path 有更高的時間幀率,更小的通道數:?

Experiment

Fast path 有助于提升精度 , 可以達到 SOTA。

3.4 CSN, CVPR

論文標題:

Video Classification with Channel-Separated Convolutional Networks

所屬領域:

視頻分類(FAIR,CVPR 2019)

?

論文鏈接:

https://arxiv.org/abs/1904.02811

代碼鏈接:

https://github.com/facebookresearch/VMZ

Contributions

探究了 3D group conv 的作用,包括“是否能降低計算開銷”,“主要影響因素”,“trade-off 方案” 。

Conclusions

1. 3D group conv 可以有效降低計算開銷。

2. 3D channel-separated conv 有正則化效果,能夠提升測試準確率。

Methods

irCSN 和 ipCSN?

提出兩種 3D 組卷積結構(ip 和 ir):?

(a)resnet 3D conv

(b)ip block(Interaction-preserved channel-separated bottleneck block)

使用一個 1x1x1 卷積和一個 3x3x3 depth wise 卷積替換原來的一個 3x3x3 卷積,由于新增了一個 1x1x1 卷積,因而保留了 channels 之間的連接信息,所以稱為 Interaction-preserved。?

(c)ir blockInteraction-reduced channel-separated bottleneck block)

使用一個 3x3x3 depth wise 卷積替換原來的一個 3x3x3 卷積,由于此處已經丟失了部分連接信息,因而稱為 Interaction-reduced。?

Experiments

1. 在 50 和 101 layer 的實驗中,可以超過原始 resnet 結構:69.4 -> 70.8,70.6->71.8。

2. ip-CSN 和 resnet 在 kinetics 上 training error 的對比:ip-CSN 有更高的 train error,但是有更低的 test error,證明 ip 結構可以提供正則化效果,防止過擬合。?

3. 在 kinetics 上可以達到 sota:?


簡單過了一遍,總體來說分為兩大陣營:

  • 以 SlowFast 為首的 3D conv 結構(i3D, P3D, R(2+1)D, SlowFast等);

  • 以 TSM 為首的 2D conv 結構(TSM,TSN,TIN)等;

基本也是 trade-off 問題了,3D conv 精度更高,2D conv 速度更快。相信也會像目標檢測一樣,忽然有個逆天結構出來改變賽場模式吧(比如 Transformer?)

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的管中窥“视频”,“理解”一斑 —— 视频理解概览的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产免费黄色大片 | 99亚洲欲妇 | 亚洲精选久久 | 成人做爰www免费看视频网站 | 97人人超 | 精品婷婷色一区二区三区蜜桃 | 日本免费一区二区三区四区 | 色综合99久久久无码国产精品 | 少妇无码吹潮 | 91香蕉视频在线 | 精品人伦一区二区三 | 人人模人人爽 | 国产理论精品 | 免费观看日批视频 | 波多野吉衣一区二区 | 日本一级淫片1000部 | 都市激情亚洲色图 | 日韩少妇精品 | 极品美女一区二区三区 | 91网站观看 | 欧美日韩在线免费观看 | 久久久精品在线 | 日韩一级欧美一级 | 日本不卡视频一区二区 | 国产精品夜夜夜爽张柏芝 | 国产又粗又猛又爽又黄91精品 | 美味的客房沙龙服务 | 日韩精品一二三区 | 波多野结衣电影在线播放 | 天天舔天天 | 亚洲天堂资源在线 | 中国久久 | 三级黄色网络 | 91在线观看网站 | 久久夜色网 | 黄色福利视频 | 欧美成人黄色网 | 精品免费一区二区三区 | 神马久久春色 | 韩日视频一区 | 免费视频一二三区 | 好男人www社区在线视频夜恋 | 探花一区| 国产91视频在线观看 | 成人h片在线观看 | 日韩av福利 | 色偷偷噜噜噜亚洲男人的天堂 | 欧美性猛交一区二区三区精品 | 国产在线观看免费网站 | 日本999视频 | 欧美乱妇日本无乱码特黄大片 | 伊人春色av | 中文字幕日韩精品无码内射 | 日韩av片在线 | 清草视频| 超级碰在线视频 | 玉势 (1v1 高h) | 蜜桃aaa| 徐锦江一级淫片免费看 | 午夜视频一区二区三区 | 久久网中文字幕 | 亚洲国产精品suv | 911看片 | 日韩影院一区二区 | 伊人99热 | 亚洲伦理一区 | 国产婷婷色一区二区在线观看 | 热久久最新网址 | 97香蕉超级碰碰久久免费软件 | 欧美老女人bb | 日韩国产精品久久 | 69xx免费视频 | 深爱婷婷网| 久久精品99北条麻妃 | 中文字幕爱爱 | 国产美女黄色 | 国产小视频自拍 | av黄色在线观看 | 亚洲综合伊人久久 | 贵族女沦为官妓h呻吟 | 秋霞成人午夜伦在线观看 | 久久蜜桃av一区二区天堂 | 人碰人人 | 韩国av一区| 中文字幕h | 精品无人区无码乱码毛片国产 | 91porn九色 | 人妖粗暴刺激videos呻吟 | 日本熟妇一区二区 | 成人在线网 | 中国黄色1级片 | 久久久噜噜噜久久中文字幕色伊伊 | 女女互磨互喷水高潮les呻吟 | 黄色网占| 2021av在线 | 国产福利小视频在线观看 | 国产操人| 国产在线播放一区二区三区 | av在线观|