當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

初始化方法中非方阵的维度平均策略思考

發布時間：2024/10/8 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了初始化方法中非方阵的维度平均策略思考小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者 | 蘇劍林

單位 | 追一科技

研究方向 | NLP、神經網絡

在《從幾何視角來理解模型參數的初始化策略》[1]、《淺談Transformer的初始化、參數化與標準化》[2] 等文章，我們討論過模型的初始化方法，大致的思路是：如果一個的方陣用均值為 0、方差為 1/n 的獨立同分布初始化，那么近似于一個正交矩陣，使得數據二階矩（或方差）在傳播過程中大致保持不變。

那如果是的非方陣呢？常見的思路（Xavier初始化）是綜合考慮前向傳播和反向傳播，所以使用均值為 0、方差為 2/(m+n) 的獨立同分布初始化。但這個平均更多是“拍腦袋”的，本文就來探究一下有沒有更好的平均方案。

基礎回顧

Xavier 初始化是考慮如下的全連接層（設輸入節點數為 m，輸出節點數為 n）：

其中一般初始化為 0，的初始化均值一般也為 0，在《淺談Transformer的初始化、參數化與標準化》[2]?中我們已經算得：

所以為了保持二階矩不變，我們將的初始化方差設為 1/m（均值為 0 時，方差等于二階矩）。

但這個推導還只是考慮了前向傳播，我們還需要使得模型有合理的梯度，那么還要使得模型在反向傳播時也保持穩定。假設模型的損失函數為 l，根據鏈式法則我們有：

注意這時是對 j 求和，求和的維度為 n，所以在相同的假設下有：

所以要保持反向傳播的二階矩不變，我們將的初始化方差設為 1/n。

一個是 1/m，一個 1/n，當時就有沖突，但兩個都同樣重要，所以 Xavier 初始化就直接將兩個維度平均一下，以 2/(m+n) 為方差進行初始化。

幾何平均

現在讓我們來考慮兩個復合的全連接層（暫時忽略偏置項）：

其中，也就是說，輸入是 m 維，變換為 n 維后再變換回 m 維，類似的操作比如 BERT 的 FFN 層（但 FFN 層中間多了個激活函數）。

根據前向傳播的穩定性，我們應該要用 1/m 的方差初始化、用 1/n 的方差初始化。但是，如果我們要求和必須用同一方差初始化呢？那么很顯然，為了保證 x,y 的方差不變，都需要用方差為的分布來初始化。如果考慮反向傳播時，結果是相同的。

這樣一來，我們就導出了一個新的維度平均策略：幾何平均。通過這個維度平均策略，我們可以使得在多層網絡復合的時候，如果輸入輸出維度不變，那么方差就保持不變（不管前向傳播還是反向傳播）。而如果是代數平均 (m+n)/2，假設 m < n，那么根據，在前向傳播的時候方差就會縮小，反向傳播的時候方差就會擴大了。

二次平均

另外一個思考的角度是作為一個雙重最小化問題：假設選用的方差為t，在前向傳播時我們希望盡可能小，在反向傳播時我們則希望盡可能小，所以綜合考慮：

當時，上式取到最小值，所以這得到了一個二次分式的平均方案：。

容易證明：

從推導過程上來看，左端的二次平均是希望每一步前向和反向傳播的方差盡可能不變，因此可以認為左端是一個局部最優解；而右端的幾何平均，則是希望“最初的輸入”和“最終的輸出”的方差盡量不變，因此可以認為右端某種意義上來說是一個全局最優解；而中間的代數平均，則是介乎全局最優和局部最優之間的一個解。

如此看來，似乎 Xavier 初始化“拍腦袋”的代數平均也不失為一個“中庸之道”的選擇？

文章小結

本文簡單思考了初始化方法中非方陣的維度平均方案，一直以來，大家似乎對默認的代數平均都沒有什么疑問，而筆者從兩種不同的角度得出了不同的平均策略的可能性。至于哪種平均策略更好，筆者也沒有仔細做實驗，有興趣的讀者自行嘗試就好。當然，也可能在當前諸多優化策略之下，默認的初始化方案也工作得很好了，也就沒有仔細調節的必要性了。

參考文獻

[1]?https://kexue.fm/archives/7180

[2]?https://kexue.fm/archives/8620

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝?稿件基本要求：

? 文章確系個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發送，要求圖片清晰，無版權問題

? PaperWeekly 尊重原作者署名權，并將為每篇被采納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時聯系方式（微信），以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的初始化方法中非方阵的维度平均策略思考的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：纪念币兑换要现金吗
下一篇：阿里云天池平台官方出品！从0到1层层拆解