當前位置：首頁 >

Allen AI提出MERLOT，视频理解领域新SOTA！

發布時間：2024/7/5 52 豆豆

生活随笔收集整理的這篇文章主要介紹了 Allen AI提出MERLOT，视频理解领域新SOTA！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | Yimin_飯煲

2021年，多模態領域大概是人工智能研究者們關注者最多的一個領域了。隨著各種模態數據集的增長和算力的發展，研究者們開始不斷地嘗試在一個模型中融合來自各個模態的信息。

而在多模態領域的研究中，和視頻相關的任務被認為是最復雜的。

一方面，高質量的視頻數據集比圖像數據集更加困難，因此數據集的數量和質量往往受限；另一方面，視頻數據集中含有文本、圖像、語音等多個模態的信息，還要考慮時間線，融合起來比單純的圖像-文本數據更加復雜。

在AI領域久負盛名的Allen研究所向這一復雜的問題發起了挑戰，提出了MERLOT系列工作。

第一篇 MERLOT:Multimodal Neural Script Knowledge Models 發表于Neurips 2021, 使用了大量的視頻數據進行自監督預訓練，在12個視頻問答任務上取得了SOTA；

而第二篇 MERLOT Reserve:Neural Script Knowledge through Vision and Language and Sound 則于今年年初剛剛發布，進一步深度融合了視頻中的語音信息，在多個任務上又取得了明顯提升。下面，就讓我們一起來學習這兩篇十分Solid的工作吧~

論文鏈接:
MERLOT:
https://arxiv.org/pdf/2106.02636.pdf
MERLOT Reserve:
https://arxiv.org/pdf/2201.02639.pdf

主要方法

MERLOT這一工作使用了視覺編碼器、語言編碼器和聯合編碼器。作者們設計了三個任務來進行優化。

第一個任務是Contrastive Frame-caption matching(標題-幀匹配)，作者們使用視覺編碼器編碼圖片得到的[CLS]表示和文本編碼器編碼句子得到的[CLS]表示進行對比學習，使得圖像編碼器具備較好的表示學習性能。

第二個任務是Masked Language Modeling，對模型的語言建模能力進行優化。

第三個任務是Temporal Reordering, 在40%的情況下, 隨機選擇一個整數, 從視頻輸入中的所有幀中隨機選取幀并進行打亂，將位置編碼 (e.g. )替換為隨機且獨特的位置編碼(e.g.). 這些隨機的位置編碼和原有的位置編碼分別進行學習，可以讓模型學到恢復被擾亂的幀順序的能力。

這個任務的損失函數是針對一對視頻幀拼接隱狀態，使用兩層MLP分類器進行二分類(和的前后關系)。

MERLOT Reserve這一工作相比于MERLOT引入了新的模態：語音。

為了更好的融合來自三個模態的信息，作者們提出了更通用，更統一的訓練任務。

對于每一個Batch的輸入，只輸入視頻的幀和文本/語音中的一個（由于文本和語音的信息具有重復性), 并且MASK文本/語音中的一部分。作者們提出了對比區域匹配(Contrastive Span Matching)這一任務, 給定匹配的視頻幀/文本/語音數據，以文本為例，最小化交叉熵損失函數：

其中為[MASK]位置的隱狀態表示，為[MASK]掉的信息的隱狀態表示，為Batch中其他樣本(負樣本)的隱狀態表示。同理定義了，定義：

同樣的，可以定義和。定義總體的損失函數為：

作者們還使用了一些技巧來提升得到的特征表示的質量，感興趣的小伙伴可以去原文細讀~。

數據集

對于大規模的預訓練工作，除開訓練方法之外另一個值得關注的部分就是使用的數據集了。

MERLOT收集的數據集為YT-Temporal-180M，從600萬公開的YouTube視頻中抽取得到。

作者們選取的數據集比起HowTo100M和VLOG等局限于特定領域的數據集范圍更大，主題更廣。

后來的實驗表明，如果僅使用HowTo100M這樣的數據集進行訓練，會降低模型在下游任務上的性能。

在MERLOT Reserve這一工作中，作者們擴充了數據集，提出了YT-Temporal-1B數據集，包含2000萬Youtube視頻，進一步提升了數據集的多樣性，而模型強大的性能也說明了擴充數據的有效性。

結果

作者們通過大量的實驗證實了MERLOT和MERLOT Reserve的有效性。對于MERLOT模型，作者們在12個視頻問答數據集上開展了實驗，大幅度刷新了SOTA。

MERLOT Reserve模型同樣也有非常強大的表現，在視頻常識推理數據集上取得了不小的性能提升，超過了許多使用了其他監督信息的模型。

由于MERLOT Reserve使用了大量的數據進行了自監督預訓練，因此在零樣本學習上有著不錯的性能，在STAR數據集上相比于有監督的SOTA都有著明顯的提升。

結語

多模態技術的發展和商業化，也許將會帶來人工智能應用的新一輪爆發。以往的多模態應用面臨著模型架構復雜、缺少數據、缺少算力等一系列問題，而隨著Transformer結構一統天下，互聯網上各模態數據的井噴式增長，計算資源越發普及，這些問題都在慢慢得到解決。

MERLOT系列工作刷新了我們認知中視頻理解領域的上限，向我們展示了視頻、語音、文本多模態高效融合的一種可能性。未來，讓我們一起努力朝著多模態領域的"BERT"模型進發吧！

萌屋作者：Yimin_飯煲

在微軟NLC組搬磚的聯培博士生，愛好攝影和運動，希望賣萌屋早日開通視頻業務，我來當攝影師！

作品推薦

學完文本知識，我就直接看懂圖片了！

別再Prompt了！谷歌提出tuning新方法，強力釋放GPT-3潛力

大模型煉丹無從下手？谷歌、OpenAI燒了幾百萬刀，總結出這些方法論…

后臺回復關鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會】

獲取ACL、CIKM等各大頂會論文集！

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的Allen AI提出MERLOT，视频理解领域新SOTA！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：清华提出LogME，无需微调就能衡量预训
下一篇： AI技术在空气净化机器人中的高能应用

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

Allen AI提出MERLOT，视频理解领域新SOTA！

主要方法

數據集

結果

結語

總結