13亿参数,无标注预训练实现SOTA:Facebook提出自监督CV新模型
作者|陳萍
?來源|機器之心
Facebook AI 用 10 億張來自Instagram的隨機、未標注圖像預訓練了一個參數量達 13 億的自監督模型 SEER,該模型取得了自監督視覺模型的新 SOTA,可能會為計算機視覺領域打開一個新篇章。
近日,Facebook 宣布了一項重要新工作:他們提出的自監督 AI 模型 SEER 能夠在沒有人類手動標注的情況下,從 10 億張來自 Instagram 的隨機圖片中學習識別和分類照片中的主要對象。最終,該模型在 ImageNet 上的 top-1 準確率達到 84.2%,比現有的 SOTA 自監督模型高出一個百分點。
對此,Facebook AI 首席科學家、圖靈獎得主 Yann Lecun 發推表示祝賀,并將顯著結果進行了展示:
在大家的認知里,大多數計算機視覺模型都是從標記的數據集中學習。與此不同的是,Facebook 的模型則是通過暴露數據各部分之間的關系從數據中生成標簽。
這一步被認為對有朝一日實現人類級的機器智能至關重要。
研究人員認為,AI 的未來在于做出一種自動化系統:其可以從任何給定的信息中進行推斷,而不依賴于標注的數據集。給定一份文本、圖像或其他類型的數據,AI 系統最好能夠識別照片中的物體、讀懂文本,或執行要求它完成的其他無數任務中的任何一項。
Facebook 聲稱,他們已經朝著這一目標邁出了一步,推出了一種名為 SEER 的計算機視覺模型。SEER 是 SElf-supERvised 的縮寫,包含 13 億個參數,可以從互聯網上的任何一組隨機圖像中學習,而不需要標記數據。
論文地址:https://arxiv.org/pdf/2103.01988.pdf?fbclid=IwAR3sRgn_9uiOc_yZFROfEfyXylMZX5-C-yTDN_QRggHev9ai2snQkemh81w
SEER有何創新之處?
參數一直是機器學習系統的基本組成部分,是從歷史訓練數據中得到的模型的一部分。AI 的未來在于是否能夠不依賴于帶注釋的數據集,從給定的信息中進行推理。
視覺自監督是一項極具挑戰性的任務。對于文本來說,語義概念可以分解為離散的詞,自監督學習在自然語言處理中已經取得突破,在數量越來越多的未標記文本上訓練算法已使諸如問答、機器翻譯、自然語言推理等應用程序取得了進展。
但是對于圖像,計算機視覺尚未完全進入自監督的學習,在現有的技術中心,模型必須決定哪個像素屬于哪個概念。因此,要抓住圍繞一個概念的變化,就需要查看大量不同的圖像。
正如 Facebook AI Research 的軟件工程師 Priya Gopal 所解釋的那樣,SEER 是該領域的首創。與現有的在 ImageNet 數據集上訓練的計算機視覺的自監督模型相比,SEER 是第一個可以隨機訓練互聯網上圖像上的完全自監督的計算機視覺模型。
研究人員通過 Instagram 公開的 10 億張圖片進行模型訓練。
經過研究,Facebook 的研究人員發現,擴展 AI 系統以處理復雜圖像數據至少需要兩個核心部分:
第一為算法,其需要從大量的隨機圖像中學習,而不需要任何元數據或注釋;
第二為卷積網絡,ConvNet——模型需要足夠大,可以從數據中捕捉和學習每一個視覺概念。
卷積網絡最早是在 20 世紀 80 年代被提出的,它的靈感來自于生物過程,即模型各部分之間的連接模式類似于視覺皮層。
在開發 SEER 的過程中,Facebook 采用了一種稱為 SwAV 的算法。SwAV 使用了一種聚類技術,可以快速地對來自相似視覺概念的圖像進行分組,并利用它們的相似性,與以前最先進的自監督學習相比有了改進,同時所需的訓練時間縮短為原來的1/6。
SEER 模型架構的簡化示意圖。圖源:Facebook
PriyaGoyal 介紹說,為了訓練 SEER,Facebook 的團隊使用了具有 32GB RAM 的 512 塊英偉達 V100 GPU,耗時 30 天完成。
訓練 SEER,還需要 VISSL 通用庫,它一種基于 PyTorch 的全能庫,用于自監督學習, 該庫是開源的。VISSL 通過整合現有的幾種算法,減少了對每個 GPU 的內存需要,提高了任意一個給定模型的訓練速度,促進了大規模的自監督學習。
項目地址:https://github.com/facebookresearch/vissl
性能評價及未來工作
Facebook 的研究人員使用 ImageNet 數據集作評估 SEER 性能的基準,他們發現自監督模型在諸如物體檢測、分割和圖像分類等任務上優于最新的自監督 AI 系統。結果表明,SEER 在對 10 億張 Instagram 公共圖片進行預訓練后,性能優于現有的 SOTA 自監督系統。
當使用 ImageNet 數據集中 10% 的數據進行訓練時,SEER 仍然達到 77.9% 的準確率。當只使用 ImageNet 數據集中 1% 的數據訓練時,SEER 的準確率為 60.5%。
這一結果表明,研究人員不需要像 ImageNet 這樣的高度精選的數據集,對隨機圖像的自監督學習就可以產生非常高質量的模型。
當被問及 Instagram 用戶是否知道自己的照片被用來訓練 SEER,或有機會選擇退出研究時,Goyal 表示說,Facebook 在其數據政策中告知 Instagram 賬戶持有人,他們上傳的照片可能會被用來進行研究,同時包括 SEER。
同時這也意味著,Facebook 沒有計劃分享圖像數據集或 SEER 模型本身。
Facebook 在博客中寫道:自監督學習一直是 Facebook AI 關注的焦點,因為它使機器能夠直接從大量可用的信息中學習,而不僅僅是從專門為 AI 研究創建的訓練數據中學習。
自監督學習對計算機視覺的未來有著難以置信的影響,就像它在其他研究領域中的那樣。
消除對人類注釋和元數據的需求,可以使計算機視覺模型能夠處理更大、更多樣化的數據集,從隨機的公共圖像中學習,并可能減輕數據管理中的一些偏見。
自監督學習還可以幫助我們在圖像或元數據有限的領域(如醫學成像)進行專門研究。而且,無需預先進行標記,就可以更快地創建和部署模型,從而能夠更快、更準確地響應快速變化的情況。
參考鏈接:
https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/
https://venturebeat.com/2021/03/04/facebooks-new-computer-vision-model-achieves-state-of-the-art-performance-by-learning-from-random-images/
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的13亿参数,无标注预训练实现SOTA:Facebook提出自监督CV新模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 新年第一战| 数字中国创新大赛·大数据赛
- 下一篇: 搜出来的文本:基于BERT的文本采样