當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何从数学角度解释何恺明新作Masked Autoencoders (MAE)？

發布時間：2024/10/8 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了如何从数学角度解释何恺明新作Masked Autoencoders (MAE)？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

何愷明最新一作論文 Masked Autoencoders（MAE）為自監督學習方法帶來了一場革命，自提出以來，在 AI 領域內得到了極大的關注。MAE 不僅在圖像預訓練上達到了 SOTA 性能，更是一個里程碑式的橋梁，架通了之前 vision domain 和 language domain 在基于 masked autoencoder 的預訓練差異。MAE 的成功在原論文里被解釋為得益于 MAE 內部隱空間里的強大表達能力—“We hypothesize that this behavior occurs by way of a rich hidden representation inside the MAE”。

令人遺憾的是 MAE 原論文里沒有提供理論解釋。某問答平臺上“如何看待何愷明最新一作論文 Masked Autoencoders？”的帖子已有三千多關注者和 140 多萬瀏覽量，但是大家目前還沒有討論出 MAE 背后的數學原理和理論解釋是什么。

本周，有一篇重磅論文“How to Understand Masked Autoencoders”就為 MAE 提供了一種理論解釋框架，并帶有數學證明。這篇論文應該是截止目前，第一篇為 MAE 提出理論解釋的論文。

論文標題：

How to Understand Masked Autoencoders

論文鏈接：

https://arxiv.org/abs/2202.03670

這篇論文使用了積分方程與算子理論的思想，為 MAE 模型提供了一套理論分析的框架，在這個框架內對 MAE 模型的構成和訓練提出了 5 個關鍵（甚至是“反直覺”的）問題，并通過數學證明的方式給出了回答:

Q1. MAE 模型內部的表示空間是如何構成和優化的？它的表示空間是如何在 Transformer 內部跨層傳播的？

Q2. MAE 對輸入圖像采用了分片化處理，這樣做為什么有助于 MAE 模型的訓練？

Q3. 為什么 MAE 內部低層和高層輸出的特征表示之間沒有明顯的差異？

Q4. MAE 的解碼器部分對它不重要嗎？

Q5. MAE 對每個 masked patch 的重建只是參考其最相近的未被遮蓋 patch 進行推斷的嗎？

這五個關鍵問題非常吸引人，比如 Q4 和 Q5 就是非?！胺粗庇X”的，作者在論文中給出了詳細的數學推導和分析，讀起來覺得有理有據非常扎實。

屬實說，MAE 的巨大成功至少讓單模態的自監督學習進入了一個特殊的歷史節點，面對 MAE 的成功，廣大學者們一時間還找不到該從哪些角度切入來對 MAE 進行理論解釋。非常感謝這篇滿是數學干貨的論文“How to Understand Masked Autoencoders”為整個自監督學習社區對 MAE 的研究帶來了突破性的思路！

具體數學推導請參看原文，全文的主體章節包括：

Section 3: Patch is All We Need?

Section 4: Attention in MAE: a Kernel Perspective

Section 5: Stable Representation Propagation in the Attention Block

Section 6: MAE Decoder: Low-Rank Reconstruction Through Global Interpolation

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝?稿件基本要求：

? 文章確系個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發送，要求圖片清晰，無版權問題

? PaperWeekly 尊重原作者署名權，并將為每篇被采納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時聯系方式（微信），以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的如何从数学角度解释何恺明新作Masked Autoencoders (MAE)？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：社保降费正式实施会带来哪些方面的影响
下一篇：独特的升职技巧另辟蹊径效果更好