日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

清华BAAI唐杰团队提出第一个开源的通用大规模预训练文本到视频生成模型CogVideo,含94亿超大参数量!代码即将开源!...

發布時間:2024/3/24 ChatGpt 95 豆豆
生活随笔 收集整理的這篇文章主要介紹了 清华BAAI唐杰团队提出第一个开源的通用大规模预训练文本到视频生成模型CogVideo,含94亿超大参数量!代码即将开源!... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

關注公眾號,發現CV技術之美

我愛計算機視覺

專業計算機視覺技術分享平臺,“有價值有深度”,分享開源技術與最新論文解讀,傳播視覺技術的業內最佳實踐。知乎/微博:我愛計算機視覺,官網 www.52cv.net 。KeyWords:深度學習、機器學習、計算機視覺、人工智能。

公眾號


本篇分享論文『CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers』,油清華&BAAI唐杰團隊提出第一個開源的通用大規模預訓練文本到視頻生成模型CogVideo,含94億超大參數量!代碼即將開源!

詳細信息如下:

  • 論文鏈接:https://arxiv.org/abs/2205.15868

  • 項目鏈接:https://github.com/THUDM/CogVideo

? ? ??01??? ??

摘要

大規模預訓練Transformer在文本(GPT-3)和文本到圖像(DALL-E和CogView)生成方面創造了里程碑。它在視頻生成中的應用仍然面臨著許多挑戰:潛在的巨大計算成本使得從頭開始的訓練難以負擔;文本視頻數據集的稀缺性和弱相關性阻礙了模型對復雜運動語義的理解。

在這項工作中,作者提出了9B參數Transformer——CogVideo,通過繼承預訓練文本到圖像模型CogView2進行訓練。作者還提出了多幀率分層訓練策略,以更好地對齊文本和視頻片段。作為(可能)第一個開源的大規模預訓練文本到視頻模型,CogVideo在機器和人工評估方面大大優于所有公開可用的模型。

? ? ??02??? ??

Motivation

自回歸Transformer,如DALL-E和CogView,最近徹底改變了文本到圖像的生成。研究自回歸Transformer在文本到視頻生成中的潛力是很自然的。之前的工作遵循這一基本框架,例如VideoGPT,驗證了其優于基于GAN的方法,但仍遠不能令人滿意。

一個常見的挑戰是,生成的視頻幀往往會逐漸偏離文本提示,使生成的角色難以執行所需的操作。Vanilla自回歸模型可能擅長合成具有規則(例如直線移動的汽車)或隨機模式(例如,通過隨機移動的嘴唇說話)的視頻,但在文本提示上失敗,例如“獅子正在喝水”。這兩種情況之間的主要區別在于,在前一種情況下,第一幀已經為后續的更改提供了足夠的信息,而在后一種情況下,模型必須準確理解“喝”的動作,以便正確生成所需的動作——獅子將玻璃杯舉到嘴唇,喝下,然后放下玻璃杯。

為什么自回歸Transformer很好地理解文本-圖像關系,但卻很難理解視頻中的文本-動作關系?作者認為數據集和利用它們的方式是主要原因。

首先,可以從互聯網上收集數十億對高質量的文本圖像,但文本視頻數據更為稀缺。最大的帶標注文本視頻數據集VATEX只有41250個視頻。基于檢索的文本-視頻對(如Howto100M)相關性較弱,大多數只描述場景,沒有時間信息。

其次,視頻的持續時間變化很大。以前的模型將視頻分割為固定幀數的多個片段進行訓練,這會破壞文本與其在視頻中的時間對應物體之間的對齊。如果將一段“飲酒”視頻分為四個單獨的片段,分別是“拿著杯子”、“舉起”、“飲酒”和“放下”,并使用相同的文本“飲酒”,那么模型將被混淆,無法了解飲酒的準確含義。

在本文中,作者提出了一個大規模的預訓練文本到視頻生成模型CogVideo,該模型有94億個參數,在540萬個文本-視頻對上進行訓練。為了繼承從文本圖像預訓練中學習到的知識,作者基于預訓練的文本到圖像模型CogView2構建了CogVideo。

為了保證視頻中文本與其時間對應物之間的對齊,作者提出了多幀率分層訓練。文本條件的靈活性使得可以簡單地將一段描述幀率的文本前置到原始文本提示中,以建模不同的幀率。為了保持文本視頻對齊,作者選擇適當的幀率描述,以便在每個訓練樣本中包含完整的動作。幀率token還控制生成中整個連續幀的更改強度。

具體來說,作者訓練了序列生成模型和幀插值模型。前者根據文本生成關鍵幀,后者通過改變幀率遞歸填充中間幀,使視頻連貫。如上圖所示,CogVideo可以生成高分辨率(480×480)視頻。人類評估表明,CogVideo在很大程度上優于所有公開可用的模型。本文的主要貢獻如下:

  • 提出CogVideo,它是通用領域中最大也是第一個用于文本到視頻生成的開源預訓練Transformer。

  • CogVideo優雅而高效地微調了文本到圖像生成的預訓練用于文本到圖像的生成,避免了從頭開始昂貴的完全預訓練。

  • 提出了多幀率分層訓練來更好地對齊文本片段對,這顯著提高了生成精度,尤其是對于復雜語義的運動。這種訓練策略賦予CogVideo控制生成過程中變化強度的能力。

  • ? ? ??03??? ??

    方法

    作者首先在3.1節中介紹了多幀率分層訓練,以更好地對齊文本和視頻語義,然后在3.2節中說明了一種有效的方法,即雙通道注意,以繼承用于視頻生成的預訓練文本圖像模型中的知識。為了克服大模型和長序列造成的大內存和時間開銷,作者參考了Swin注意力,并將其擴展到3.3節中的自回歸視頻生成。

    3.1 Multi-frame-rate Hierarchical Training

    作者遵循VQV AE的框架,首先將每個幀token為圖像token。每個訓練樣本由5幀token組成,但本文的訓練方法在訓練序列的構造和生成過程上有所不同。

    Training

    關鍵的設計是在文本和樣本幀中添加一個幀率token,以此幀率組成一個固定長度的訓練序列。動機有兩個方面:

  • 直接將長視頻以固定的幀率分割成片段通常會導致語義不匹配。作者仍然使用了全部文本,但截斷的片段可能只包含不完整的操作。

  • 相鄰幀通常非常相似。與前一幀相比的巨大變化可能會導致巨大的loss。這將導致模型不太傾向于探索長期相關性,因為簡單地復制前一幀就像一條捷徑。

  • 因此,在每個訓練樣本中,作者希望文本和幀盡可能匹配。作者預定義了一系列幀速率,并為每個文本視頻對選擇最低幀率,所以作者在視頻中以該幀率至少采樣5幀。

    盡管上述方法增加了文本和視頻的對齊,但在低幀率下的生成可能不連貫。因此,作者訓練另一個幀插值模型,將過渡幀插入到序列生成模型的生成樣本中。由于CogLM的通用性,這兩個模型可以共享相同的結構和訓練過程,只需使用不同的注意力mask。

    Generation

    多幀率分層生成是一個遞歸過程,如上圖所示。具體而言,生成管道包括順序生成階段遞歸插值階段

  • 基于低幀率和文本順序生成個關鍵幀。輸入序列是。在實驗中,作者將設置為5,并將最小采樣幀速率設置為1 fps。

  • 基于文本、幀率和已知幀進行遞歸插值幀。輸入序列是,其中幀將自動回歸生成。通過遞歸對半,可以進行越來越精細的插值來生成多幀的視頻。

  • The effect of CogLM

    諸如幀插值之類的任務嚴重依賴于雙向信息。然而,以前的大多數作品都使用GPT,這是單向的。為了了解雙向上下文,作者采用了跨模態通用語言模型(CogLM)中將token劃分為單向和雙向注意區域的思想,將雙向上下文感知mask預測和自回歸生成結合起來。

    雙向區域可以處理所有雙向區域,但單向區域可以處理所有雙向區域和以前的單向區域。如上圖所示,第1階段中的所有幀以及第2階段的第2、4幀,和所有其他幀都屬于雙向區域。這樣,在文本和給定幀中充分利用雙向注意上下文,而不會干擾自回歸幀預測。

    3.2 Dual-channel Attention

    大規模的預訓練通常需要大量的數據集。對于開放域文本到視頻生成,理想情況下,需要數據集覆蓋足夠的文本-視頻對,以推斷視頻和文本之間的空間和時間相關性。然而,收集高質量的文本-視頻對通常是困難、昂貴和耗時的。

    一個自然的想法是利用圖像數據來促進空間語義的學習。Video Diffusion Model和NüWA模型嘗試將文本圖像對添加到文本視頻訓練中,在多個指標上取得了更好的效果。然而,對于僅視頻生成模型的訓練,添加圖像數據將顯著增加訓練成本,尤其是在大規模預訓練場景中。

    在本文中,作者提出利用預訓練圖像生成模型來代替圖像數據。預訓練的文本到圖像模型,例如CogView2,已經很好地掌握了文本圖像關系。用于訓練這些模型的數據集的覆蓋率也比視頻的覆蓋率大。

    本文提出的技術是雙通道注意力,只在每個Transformer層的預訓練CogView2中添加一個新的時空注意通道。CogView2中的所有參數都在訓練中凍結,只有新添加的注意力層中的參數(上圖中的attention-plus)是可訓練的。

    作者發現,直接微調CogView2以生成文本到視頻不能很好地繼承知識,因為時間注意力遵循不同的注意模式,并在大梯度訓練的初始階段迅速破壞預訓練的權重。

    具體而言,帶Sandwich-LN 的雙通道注意力塊可計算為:

    混合因子α是一個向量,其中d是輸入特征的隱藏大小。為了將α的范圍限制在(0,1)之內,作者將其重新參數化為,其中是一個可學習的參數。attention plus塊的參數形狀與正常的多頭注意力塊attention base相同,但計算過程不同。

    在本文的訓練中,作者嘗試了兩種注意力方式,3D局部注意力和3D Swin注意力塊。在3D局部注意力中,(t,x,y)(其中(t,x,y)對應于沿時間、高度和寬度的協調)處token的感受野(RF)是一個范圍為的3D區塊:

    其中,表示token(t,x,y)的注意力mask。在序列生成模型(第1階段)中,mask確保了自回歸順序;在插值模型(第2階段)中,mask按照aCogLM的設計,以使所有幀都可以看到已知幀。

    值得注意的是,由于FFN是一個包含大量視覺知識的重參數模塊,因此兩個通道被融合并在每一層中共享相同的FFN。由于圖像和視頻之間的相似性,將其知識引入時間通道將有助于視頻建模。最后,共享FFN可以減少參數,從而加快訓練并減少顯存開銷。

    3.3 Shifted Window Attention in Auto-regressive Generatio

    為了進一步緩解訓練和推理過程中時間通道中的大量時間和內存開銷,作者參考了Swin注意力。原來的Swin注意力只適用于非自回歸場景,作者通過在移動窗口中應用自回歸注意力mask將其擴展到自回歸和時間場景。

    一個有趣的發現是,Swin注意力為在不同幀的遠距離區域進行并行生成提供了機會,這進一步加速了自回歸生成。特定token的生成依賴于1)自回歸mask。token只能處理前一幀或當前幀中自身之前的token。2)Shifted window。只有在寬度和高度維度的窗口大小距離內的token才能直接注意力。

    如上圖所示,幀的生成可以并行工作。假設X,Y是每個幀的高度和寬度,是移動窗口的高度和寬度。對于位于和的兩個token,

    ,后者不能直接或間接attend到前者,如果:

    這意味著第t幀中的第i個token可以和第t+1幀的第個token并行生成。這樣,最多可以并行生成個token,與一次只能生成一個token的標準注意力自回歸相比,大大增強了并行性,加快了推理速度。


    ? ? ??04??? ??

    實驗

    上表展示了UCF-101和Kinetics-600數據集上的生成結果。

    上圖中的結果顯示,CogVideo在多個重要方面(包括幀紋理、運動真實感和語義相關性)都顯著優于baseline,并且在總體質量上取得了最高分??梢钥闯?#xff0c;49.53%的評估者選擇CogVideo作為最佳方法,只有15.42%和5.6%的人分別支持VideoGPT和TGANv2。

    定量結果如上表所示。可以看到,分層方法明顯優于具有不同的一階段生成,并且使用CogView2權重初始化的模型的FVD低于隨機初始化的模型。

    上圖繪制了(1)微調CogVideo的訓練損失曲線;(2) 隨機初始化訓練模型;(3) 使用CogView2初始化訓練模型并部分固定。可以看出 CogView2賦予了模型很好的初始化參數。

    定性比較如上圖所示。雖然從隨機初始化訓練的模型往往會產生不合理的變形,但包含CogView2的模型能夠生成真實的對象,并且層次生成在內容一致性和運動真實性方面表現更好。


    ? ? ??05??? ??

    總結

    CogVideo是通用領域中最大、也是第一個用于文本到視頻生成的開源預訓練Transformer。CogVideo也是第一次嘗試在不損害其圖像生成能力的情況下,將預訓練的文本到圖像生成模型有效地利用到文本到視頻生成模型。通過提出的多幀率分層訓練框架,CogVideo能夠更好地理解文本-視頻關系,并能夠控制生成過程中的變化強度。作者將Swin注意力擴展到CogLM,它可以實現訓練和推理的加速。

    參考資料

    [1]https://arxiv.org/abs/2205.15868
    [2]https://github.com/THUDM/CogVideo

    END

    歡迎加入「計算機視覺交流群👇備注:CV

    總結

    以上是生活随笔為你收集整理的清华BAAI唐杰团队提出第一个开源的通用大规模预训练文本到视频生成模型CogVideo,含94亿超大参数量!代码即将开源!...的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。