當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

Meta让AI视频计算成本暴降95%，图片遮住一半AI也能猜出原图

發布時間：2023/12/3 综合教程 90 生活家

生活随笔收集整理的這篇文章主要介紹了 Meta让AI视频计算成本暴降95%，图片遮住一半AI也能猜出原图小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

智東西（公眾號：zhidxcom）

編譯 | 夏舍予

編輯 | 云鵬

智東西7月4日消息，根據外媒IEEE Spectrum報道，Meta公司的研究人員發表了一系列關于MAE（masked auto-encoder，掩碼自編碼器）的新論文。MAE系統可以通過SSL技術（self-supervised learning，自主監督學習）預測數據中缺失的部分，進而還原殘缺的文本、圖像、視頻和音頻。

MAE系統還原不同類型文件的通用原理，就是根據已有信息預測缺失內容，再用其它數據彌補。

通過這項技術，AI或許能夠自動進行數據標注（ground truth），而不用再通過人工標注。這就意味著，AI模型的學習效率得到很大提升，這或許為AI模型的未來發展帶來了新思路。

一、智力的本質是預測能力，SSL技術可以提升AI智能水平

MAE系統使用了SSL技術（Self-supervised Learning，自監督學習）。SSL是指用于機器學習的標注源于數據本身，而非來自人工標注的一種技術。

MAE系統可以從非常零散的殘缺數據中預測出丟失的那些部分，從而還原圖像、視頻和音頻。而這就是MAE系統構建“世界模型”（world models）的過程。

Meta的首席AI科學家揚·勒昆（Yann LeCun）說：“SSL技術是AI系統構建‘世界模型’（world models）的前提條件。只有具備SSL功能后，AI才能夠像人類一樣具備理性和常識，獲得知識遷移的能力，適應不同環境。”揚·勒昆表示，如果MAE系統可以預測數據中丟失的那部分，這就意味著AI能夠理解世界是三維的，擁有一定程度的分辨能力，才有可能預測人的復雜行為。

揚·勒昆（Yann LeCun）告訴外媒IEEE Spectrum：“我們想創造能像動物和人類一樣進行自主學習的AI模型。”揚·勒昆認為，智力的本質就是一種預測能力。這個觀點得到2018年圖靈獎得主本吉奧（Yoshua Bengio）的認可，本吉奧也認為對世界進行推理預測的能力是智力的關鍵。

左邊是提供給MAE模型的訓練圖，中間是預測結果，右邊是原圖

二、填字游戲新玩法？AI幫你補全畫面

Meta的AI部門的研究人員羅斯·吉爾希克（Ross Girshick）與人合著了一篇關于MAE系統原理的論文。論文中提到，Meta的MAE系統建立在一種叫Transformer的神經網絡算法上。Transformer是一類基于注意力機制的神經網絡算法。這種算法可以讓AI模型減少對外部信息的依賴，捕捉數據或特征的內部關系，優化模型訓練結果。

關于MAE原理的論文

在處理文本數據時，MAE系統將會檢測一個缺乏某些數據的文本數據庫。MAE系統檢測到這些缺失的文本后，會用新的文本塊補充丟失的內容。

這一技術同樣可以遷移到MAE系統對靜態圖像的處理上。研究人員將圖像分解成多個補丁（patch）塊，再讓MAE系統彌補缺失的圖像。羅斯·吉爾希克（Ross Girshick）說，這一點是受到了谷歌關于ViT模型（Vision Transformer）的啟發。

ViT模型（Vision Transformer)的基本原理就是將Transformer架構應用于計算機視覺領域。具體而言，ViT模型可以將圖片切分為相同大小的補丁塊，給每個補丁塊編碼后再組成圖像序列，機器可以識別這種圖像序列。基于這種啟發，MAE系統在預測缺失的圖像時，會把圖像分解成很多小補丁塊，再用新的補丁塊填充丟失的內容。

三、文本和圖像信息密度不同，遮蓋75%圖像實驗結果最好

該團隊發現，因為文本和圖像的信息密度不同，文本和圖像得到最佳還原效果所需遮蓋的數據比例也不同。MAE系統還原靜態圖像時，掩蓋75%的數據會得到相對最好的結果。但對于文本而言，這個數字是15%。

研究人員發現，遮蓋75%的圖像實驗結果最好

語言是人類生成的具有高度語義和信息密集度的符號。每個字符都包含了很多含義，如果句子中丟失的單詞過多，那么MAE模型會預測出很多種結果，準確率不高。與此對應，圖像是具有大量空間冗余的自然符號。例如，在同一張圖片上，區域相近的圖片像素特征相差不大，所以通過模型可以從相鄰的圖像塊中恢復丟失的圖片信息。

羅斯·吉爾希克解釋說，MAE系統包含兩個工作步驟。首先，MAE系統會使用編碼器通過數據集學習像素之間的關系。然后，MAE系統會使用解碼器從蒙版開始重建原始圖像。這兩部分完成后，MAE系統會丟棄編碼器，轉而使用解碼器用于分類和目標檢測等視覺任務。

羅斯·吉爾希克說：“MAE系統的解碼器可以完成物體識別等任務，這對我們而言是巨大的收獲。”這意味著，通過MAE系統，機器可以自動為數據標注（ground truth），而不用人工標注數據。

四、MAE系統可節省95%的視頻計算成本

當MAE系統用于處理視頻時，研究人員會遮蓋每幀畫面中95%的數據信息。視頻的幀與幀之間有很高的相似性，這意味著視頻比靜態圖像有更多的信息冗余。Meta研究人員Christoph Feichtenhofer說，通過這種方法，MAE系統可以減少95%的計算成本，這就是MAE系統在視頻計算上的一大優勢。他還說，這個技術或許可以用于Facebook和Instagram上的內容審核和任務分類。

而對于音頻的AI學習，Meta AI團隊發現了一個巧妙的方法。他們把音頻文件轉化為了聲譜圖，換言之，他們把聲音轉化成了圖像。然后他們會再用與圖像相同的處理方法，把聲譜圖的補丁掩蓋起來再進行訓練。盡管該模型目前只能處理幾秒鐘的音頻片段，但已經取得了很好的效果。

音頻系統的工作人員Bernie Huang說，這項技術在音頻上的潛在應用包括音頻分類、改善語音通話、更好地找到壓縮音頻文件的方法等。

MAE框架

結語：MAE系統或有更大應用空間，但要謹慎考慮準確性

MAE系統可以預測殘缺數據中缺失的部分，進而還原文本、圖片、視頻和音頻。

這個技術有很大的想象空間和應用潛力，例如復原考古遺跡照片、彌補數據丟失的歷史文件等。MAE系統不僅可能在AI領域獲得突破，而且也可能為其它領域帶來驚喜。

但是MAE模型也有缺點，基于目前實驗的準確性不可能達到100%，該模型可能會生成并不存在的內容。人們在使用MAE模型還原數據時，需要謹慎考慮和研究這些問題。

總結

以上是生活随笔為你收集整理的Meta让AI视频计算成本暴降95%，图片遮住一半AI也能猜出原图的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。