日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

Allen AI提出MERLOT,视频理解领域新SOTA!

發布時間:2024/7/5 52 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Allen AI提出MERLOT,视频理解领域新SOTA! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | Yimin_飯煲

2021年,多模態領域大概是人工智能研究者們關注者最多的一個領域了。隨著各種模態數據集的增長和算力的發展,研究者們開始不斷地嘗試在一個模型中融合來自各個模態的信息。

而在多模態領域的研究中,和視頻相關的任務被認為是最復雜的。

一方面,高質量的視頻數據集比圖像數據集更加困難,因此數據集的數量和質量往往受限;另一方面,視頻數據集中含有文本、圖像、語音等多個模態的信息,還要考慮時間線,融合起來比單純的圖像-文本數據更加復雜。

在AI領域久負盛名的Allen研究所向這一復雜的問題發起了挑戰,提出了MERLOT系列工作。

第一篇 MERLOT:Multimodal Neural Script Knowledge Models 發表于Neurips 2021, 使用了大量的視頻數據進行自監督預訓練,在12個視頻問答任務上取得了SOTA;

而第二篇 MERLOT Reserve:Neural Script Knowledge through Vision and Language and Sound 則于今年年初剛剛發布,進一步深度融合了視頻中的語音信息,在多個任務上又取得了明顯提升。下面,就讓我們一起來學習這兩篇十分Solid的工作吧~

論文鏈接:
MERLOT:
https://arxiv.org/pdf/2106.02636.pdf
MERLOT Reserve:
https://arxiv.org/pdf/2201.02639.pdf

主要方法

MERLOT這一工作使用了視覺編碼器、語言編碼器和聯合編碼器。作者們設計了三個任務來進行優化。

第一個任務是Contrastive Frame-caption matching(標題-幀匹配),作者們使用視覺編碼器編碼圖片得到的[CLS]表示和文本編碼器編碼句子得到的[CLS]表示進行對比學習,使得圖像編碼器具備較好的表示學習性能。

第二個任務是Masked Language Modeling,對模型的語言建模能力進行優化。

第三個任務是Temporal Reordering, 在40%的情況下, 隨機選擇一個整數, 從視頻輸入中的所有幀中隨機選取幀并進行打亂,將位置編碼 (e.g. )替換為隨機且獨特的位置編碼(e.g.). 這些隨機的位置編碼和原有的位置編碼分別進行學習,可以讓模型學到恢復被擾亂的幀順序的能力。

這個任務的損失函數是針對一對視頻幀拼接隱狀態,使用兩層MLP分類器進行二分類(和的前后關系)。

MERLOT Reserve這一工作相比于MERLOT引入了新的模態:語音。

為了更好的融合來自三個模態的信息,作者們提出了更通用,更統一的訓練任務。

對于每一個Batch的輸入,只輸入視頻的幀和文本/語音中的一個(由于文本和語音的信息具有重復性), 并且MASK文本/語音中的一部分。作者們提出了對比區域匹配(Contrastive Span Matching)這一任務, 給定匹配的視頻幀/文本/語音數據,以文本為例,最小化交叉熵損失函數:

其中為[MASK]位置的隱狀態表示,為[MASK]掉的信息的隱狀態表示,為Batch中其他樣本(負樣本)的隱狀態表示。同理定義了,定義:

同樣的,可以定義和。定義總體的損失函數為:

作者們還使用了一些技巧來提升得到的特征表示的質量,感興趣的小伙伴可以去原文細讀~。

數據集

對于大規模的預訓練工作,除開訓練方法之外另一個值得關注的部分就是使用的數據集了。

MERLOT收集的數據集為YT-Temporal-180M,從600萬公開的YouTube視頻中抽取得到。

作者們選取的數據集比起HowTo100M和VLOG等局限于特定領域的數據集范圍更大,主題更廣

后來的實驗表明,如果僅使用HowTo100M這樣的數據集進行訓練,會降低模型在下游任務上的性能。

在MERLOT Reserve這一工作中,作者們擴充了數據集,提出了YT-Temporal-1B數據集,包含2000萬Youtube視頻,進一步提升了數據集的多樣性,而模型強大的性能也說明了擴充數據的有效性。

結果

作者們通過大量的實驗證實了MERLOT和MERLOT Reserve的有效性。對于MERLOT模型,作者們在12個視頻問答數據集上開展了實驗,大幅度刷新了SOTA。

MERLOT Reserve模型同樣也有非常強大的表現,在視頻常識推理數據集上取得了不小的性能提升,超過了許多使用了其他監督信息的模型。

由于MERLOT Reserve使用了大量的數據進行了自監督預訓練,因此在零樣本學習上有著不錯的性能,在STAR數據集上相比于有監督的SOTA都有著明顯的提升。

結語

多模態技術的發展和商業化,也許將會帶來人工智能應用的新一輪爆發。以往的多模態應用面臨著模型架構復雜、缺少數據、缺少算力等一系列問題,而隨著Transformer結構一統天下,互聯網上各模態數據的井噴式增長,計算資源越發普及,這些問題都在慢慢得到解決。

MERLOT系列工作刷新了我們認知中視頻理解領域的上限,向我們展示了視頻、語音、文本多模態高效融合的一種可能性。未來,讓我們一起努力朝著多模態領域的"BERT"模型進發吧!

萌屋作者:Yimin_飯煲

在微軟NLC組搬磚的聯培博士生,愛好攝影和運動,希望賣萌屋早日開通視頻業務,我來當攝影師!

作品推薦

  • 學完文本知識,我就直接看懂圖片了!

  • 別再Prompt了!谷歌提出tuning新方法,強力釋放GPT-3潛力

  • 大模型煉丹無從下手?谷歌、OpenAI燒了幾百萬刀,總結出這些方法論…

  • 后臺回復關鍵詞【入群

    加入賣萌屋NLP/IR/Rec與求職討論群

    后臺回復關鍵詞【頂會

    獲取ACL、CIKM等各大頂會論文集!

    創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

    總結

    以上是生活随笔為你收集整理的Allen AI提出MERLOT,视频理解领域新SOTA!的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。