如何从数学角度解释何恺明新作Masked Autoencoders (MAE)?
何愷明最新一作論文 Masked Autoencoders(MAE)為自監(jiān)督學(xué)習(xí)方法帶來了一場革命,自提出以來,在 AI 領(lǐng)域內(nèi)得到了極大的關(guān)注。MAE 不僅在圖像預(yù)訓(xùn)練上達(dá)到了 SOTA 性能,更是一個里程碑式的橋梁,架通了之前 vision domain 和 language domain 在基于 masked autoencoder 的預(yù)訓(xùn)練差異。MAE 的成功在原論文里被解釋為得益于 MAE 內(nèi)部隱空間里的強(qiáng)大表達(dá)能力—“We hypothesize that this behavior occurs by way of a rich hidden representation inside the MAE”。
令人遺憾的是 MAE 原論文里沒有提供理論解釋。某問答平臺上“如何看待何愷明最新一作論文 Masked Autoencoders?”的帖子已有三千多關(guān)注者和 140 多萬瀏覽量,但是大家目前還沒有討論出 MAE 背后的數(shù)學(xué)原理和理論解釋是什么。
本周,有一篇重磅論文“How to Understand Masked Autoencoders”就為 MAE 提供了一種理論解釋框架,并帶有數(shù)學(xué)證明。這篇論文應(yīng)該是截止目前,第一篇為 MAE 提出理論解釋的論文。
論文標(biāo)題:
How to Understand Masked Autoencoders
論文鏈接:
https://arxiv.org/abs/2202.03670
這篇論文使用了積分方程與算子理論的思想,為 MAE 模型提供了一套理論分析的框架,在這個框架內(nèi)對 MAE 模型的構(gòu)成和訓(xùn)練提出了 5 個關(guān)鍵(甚至是“反直覺”的)問題,并通過數(shù)學(xué)證明的方式給出了回答:
Q1. MAE 模型內(nèi)部的表示空間是如何構(gòu)成和優(yōu)化的?它的表示空間是如何在 Transformer 內(nèi)部跨層傳播的?
Q2. MAE 對輸入圖像采用了分片化處理,這樣做為什么有助于 MAE 模型的訓(xùn)練?
Q3. 為什么 MAE 內(nèi)部低層和高層輸出的特征表示之間沒有明顯的差異?
Q4. MAE 的解碼器部分對它不重要嗎?
Q5. MAE 對每個 masked patch 的重建只是參考其最相近的未被遮蓋 patch 進(jìn)行推斷的嗎?
這五個關(guān)鍵問題非常吸引人,比如 Q4 和 Q5 就是非常“反直覺”的,作者在論文中給出了詳細(xì)的數(shù)學(xué)推導(dǎo)和分析,讀起來覺得有理有據(jù)非常扎實。
屬實說,MAE 的巨大成功至少讓單模態(tài)的自監(jiān)督學(xué)習(xí)進(jìn)入了一個特殊的歷史節(jié)點(diǎn),面對 MAE 的成功,廣大學(xué)者們一時間還找不到該從哪些角度切入來對 MAE 進(jìn)行理論解釋。非常感謝這篇滿是數(shù)學(xué)干貨的論文“How to Understand Masked Autoencoders”為整個自監(jiān)督學(xué)習(xí)社區(qū)對 MAE 的研究帶來了突破性的思路!
具體數(shù)學(xué)推導(dǎo)請參看原文,全文的主體章節(jié)包括:
Section 3: Patch is All We Need?
Section 4: Attention in MAE: a Kernel Perspective
Section 5: Stable Representation Propagation in the Attention Block
Section 6: MAE Decoder: Low-Rank Reconstruction Through Global Interpolation
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的如何从数学角度解释何恺明新作Masked Autoencoders (MAE)?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 社保降费正式实施 会带来哪些方面的影响
- 下一篇: 招募 | 贪心科技招募CV、语音分析、联