Meta让AI视频计算成本暴降95%,图片遮住一半AI也能猜出原图
智東西(公眾號:zhidxcom)
編譯 | 夏舍予
編輯 | 云鵬
智東西7月4日消息,根據外媒IEEE Spectrum報道,Meta公司的研究人員發表了一系列關于MAE(masked auto-encoder,掩碼自編碼器)的新論文。MAE系統可以通過SSL技術(self-supervised learning,自主監督學習)預測數據中缺失的部分,進而還原殘缺的文本、圖像、視頻和音頻。
MAE系統還原不同類型文件的通用原理,就是根據已有信息預測缺失內容,再用其它數據彌補。
通過這項技術,AI或許能夠自動進行數據標注(ground truth),而不用再通過人工標注。這就意味著,AI模型的學習效率得到很大提升,這或許為AI模型的未來發展帶來了新思路。
一、智力的本質是預測能力,SSL技術可以提升AI智能水平
MAE系統使用了SSL技術(Self-supervised Learning,自監督學習)。SSL是指用于機器學習的標注源于數據本身,而非來自人工標注的一種技術。
MAE系統可以從非常零散的殘缺數據中預測出丟失的那些部分,從而還原圖像、視頻和音頻。而這就是MAE系統構建“世界模型”(world models)的過程。
Meta的首席AI科學家揚·勒昆(Yann LeCun)說:“SSL技術是AI系統構建‘世界模型’(world models)的前提條件。只有具備SSL功能后,AI才能夠像人類一樣具備理性和常識,獲得知識遷移的能力,適應不同環境?!睋P·勒昆表示,如果MAE系統可以預測數據中丟失的那部分,這就意味著AI能夠理解世界是三維的,擁有一定程度的分辨能力,才有可能預測人的復雜行為。
揚·勒昆(Yann LeCun)告訴外媒IEEE Spectrum:“我們想創造能像動物和人類一樣進行自主學習的AI模型?!睋P·勒昆認為,智力的本質就是一種預測能力。這個觀點得到2018年圖靈獎得主本吉奧(Yoshua Bengio)的認可,本吉奧也認為對世界進行推理預測的能力是智力的關鍵。
左邊是提供給MAE模型的訓練圖,中間是預測結果,右邊是原圖
二、填字游戲新玩法?AI幫你補全畫面
Meta的AI部門的研究人員羅斯·吉爾希克(Ross Girshick)與人合著了一篇關于MAE系統原理的論文。論文中提到,Meta的MAE系統建立在一種叫Transformer的神經網絡算法上。Transformer是一類基于注意力機制的神經網絡算法。這種算法可以讓AI模型減少對外部信息的依賴,捕捉數據或特征的內部關系,優化模型訓練結果。
關于MAE原理的論文
在處理文本數據時,MAE系統將會檢測一個缺乏某些數據的文本數據庫。MAE系統檢測到這些缺失的文本后,會用新的文本塊補充丟失的內容。
這一技術同樣可以遷移到MAE系統對靜態圖像的處理上。研究人員將圖像分解成多個補?。╬atch)塊,再讓MAE系統彌補缺失的圖像。羅斯·吉爾??耍≧oss Girshick)說,這一點是受到了谷歌關于ViT模型(Vision Transformer)的啟發。
ViT模型(Vision Transformer)的基本原理就是將Transformer架構應用于計算機視覺領域。具體而言,ViT模型可以將圖片切分為相同大小的補丁塊,給每個補丁塊編碼后再組成圖像序列,機器可以識別這種圖像序列?;谶@種啟發,MAE系統在預測缺失的圖像時,會把圖像分解成很多小補丁塊,再用新的補丁塊填充丟失的內容。
三、文本和圖像信息密度不同,遮蓋75%圖像實驗結果最好
該團隊發現,因為文本和圖像的信息密度不同,文本和圖像得到最佳還原效果所需遮蓋的數據比例也不同。MAE系統還原靜態圖像時,掩蓋75%的數據會得到相對最好的結果。但對于文本而言,這個數字是15%。
研究人員發現,遮蓋75%的圖像實驗結果最好
語言是人類生成的具有高度語義和信息密集度的符號。每個字符都包含了很多含義,如果句子中丟失的單詞過多,那么MAE模型會預測出很多種結果,準確率不高。與此對應,圖像是具有大量空間冗余的自然符號。例如,在同一張圖片上,區域相近的圖片像素特征相差不大,所以通過模型可以從相鄰的圖像塊中恢復丟失的圖片信息。
羅斯·吉爾??私忉屨f,MAE系統包含兩個工作步驟。首先,MAE系統會使用編碼器通過數據集學習像素之間的關系。然后,MAE系統會使用解碼器從蒙版開始重建原始圖像。這兩部分完成后,MAE系統會丟棄編碼器,轉而使用解碼器用于分類和目標檢測等視覺任務。
羅斯·吉爾希克說:“MAE系統的解碼器可以完成物體識別等任務,這對我們而言是巨大的收獲?!边@意味著,通過MAE系統,機器可以自動為數據標注(ground truth),而不用人工標注數據。
四、MAE系統可節省95%的視頻計算成本
當MAE系統用于處理視頻時,研究人員會遮蓋每幀畫面中95%的數據信息。視頻的幀與幀之間有很高的相似性,這意味著視頻比靜態圖像有更多的信息冗余。Meta研究人員Christoph Feichtenhofer說,通過這種方法,MAE系統可以減少95%的計算成本,這就是MAE系統在視頻計算上的一大優勢。他還說,這個技術或許可以用于Facebook和Instagram上的內容審核和任務分類。
而對于音頻的AI學習,Meta AI團隊發現了一個巧妙的方法。他們把音頻文件轉化為了聲譜圖,換言之,他們把聲音轉化成了圖像。然后他們會再用與圖像相同的處理方法,把聲譜圖的補丁掩蓋起來再進行訓練。盡管該模型目前只能處理幾秒鐘的音頻片段,但已經取得了很好的效果。
音頻系統的工作人員Bernie Huang說,這項技術在音頻上的潛在應用包括音頻分類、改善語音通話、更好地找到壓縮音頻文件的方法等。
MAE框架
結語:MAE系統或有更大應用空間,但要謹慎考慮準確性
MAE系統可以預測殘缺數據中缺失的部分,進而還原文本、圖片、視頻和音頻。
這個技術有很大的想象空間和應用潛力,例如復原考古遺跡照片、彌補數據丟失的歷史文件等。MAE系統不僅可能在AI領域獲得突破,而且也可能為其它領域帶來驚喜。
但是MAE模型也有缺點,基于目前實驗的準確性不可能達到100%,該模型可能會生成并不存在的內容。人們在使用MAE模型還原數據時,需要謹慎考慮和研究這些問題。
總結
以上是生活随笔為你收集整理的Meta让AI视频计算成本暴降95%,图片遮住一半AI也能猜出原图的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 眼睛发胀头脑有时胀是什么原因?
- 下一篇: 视频配乐的方法分享怎么给视频配乐