初始化方法中非方阵的维度平均策略思考
?PaperWeekly 原創(chuàng) ·?作者 | 蘇劍林
單位 | 追一科技
研究方向 | NLP、神經(jīng)網(wǎng)絡(luò)
在《從幾何視角來理解模型參數(shù)的初始化策略》[1]、《淺談Transformer的初始化、參數(shù)化與標(biāo)準(zhǔn)化》[2] 等文章,我們討論過模型的初始化方法,大致的思路是:如果一個 的方陣用均值為 0、方差為 1/n 的獨(dú)立同分布初始化,那么近似于一個正交矩陣,使得數(shù)據(jù)二階矩(或方差)在傳播過程中大致保持不變。
那如果是 的非方陣呢?常見的思路(Xavier初始化)是綜合考慮前向傳播和反向傳播,所以使用均值為 0、方差為 2/(m+n) 的獨(dú)立同分布初始化。但這個平均更多是“拍腦袋”的,本文就來探究一下有沒有更好的平均方案。
基礎(chǔ)回顧
Xavier 初始化是考慮如下的全連接層(設(shè)輸入節(jié)點(diǎn)數(shù)為 m,輸出節(jié)點(diǎn)數(shù)為 n):
其中 一般初始化為 0, 的初始化均值一般也為 0,在《淺談Transformer的初始化、參數(shù)化與標(biāo)準(zhǔn)化》[2]?中我們已經(jīng)算得:
所以為了保持二階矩不變,我們將 的初始化方差設(shè)為 1/m(均值為 0 時(shí),方差等于二階矩)。
但這個推導(dǎo)還只是考慮了前向傳播,我們還需要使得模型有合理的梯度,那么還要使得模型在反向傳播時(shí)也保持穩(wěn)定。假設(shè)模型的損失函數(shù)為 l,根據(jù)鏈?zhǔn)椒▌t我們有:
注意這時(shí)是對 j 求和,求和的維度為 n,所以在相同的假設(shè)下有:
所以要保持反向傳播的二階矩不變,我們將 的初始化方差設(shè)為 1/n。
一個是 1/m,一個 1/n,當(dāng) 時(shí)就有沖突,但兩個都同樣重要,所以 Xavier 初始化就直接將兩個維度平均一下,以 2/(m+n) 為方差進(jìn)行初始化。
幾何平均
現(xiàn)在讓我們來考慮兩個復(fù)合的全連接層(暫時(shí)忽略偏置項(xiàng)):
其中 ,也就是說,輸入是 m 維,變換為 n 維后再變換回 m 維,類似的操作比如 BERT 的 FFN 層(但 FFN 層中間多了個激活函數(shù))。
根據(jù)前向傳播的穩(wěn)定性,我們應(yīng)該要用 1/m 的方差初始化 、用 1/n 的方差初始化 。但是,如果我們要求 和 必須用同一方差初始化呢?那么很顯然,為了保證 x,y 的方差不變, 都需要用方差為 的分布來初始化。如果考慮反向傳播時(shí),結(jié)果是相同的。
這樣一來,我們就導(dǎo)出了一個新的維度平均策略:幾何平均 。通過這個維度平均策略,我們可以使得在多層網(wǎng)絡(luò)復(fù)合的時(shí)候,如果輸入輸出維度不變,那么方差就保持不變(不管前向傳播還是反向傳播)。而如果是代數(shù)平均 (m+n)/2,假設(shè) m < n,那么根據(jù) ,在前向傳播的時(shí)候方差就會縮小,反向傳播的時(shí)候方差就會擴(kuò)大了。
二次平均
另外一個思考的角度是作為一個雙重最小化問題:假設(shè)選用的方差為t,在前向傳播時(shí)我們希望 盡可能小,在反向傳播時(shí)我們則希望 盡可能小,所以綜合考慮:
當(dāng) 時(shí),上式取到最小值,所以這得到了一個二次分式的平均方案:。
容易證明:
從推導(dǎo)過程上來看,左端的二次平均是希望每一步前向和反向傳播的方差盡可能不變,因此可以認(rèn)為左端是一個局部最優(yōu)解;而右端的幾何平均,則是希望“最初的輸入”和“最終的輸出”的方差盡量不變,因此可以認(rèn)為右端某種意義上來說是一個全局最優(yōu)解;而中間的代數(shù)平均,則是介乎全局最優(yōu)和局部最優(yōu)之間的一個解。
如此看來,似乎 Xavier 初始化“拍腦袋”的代數(shù)平均也不失為一個“中庸之道”的選擇?
文章小結(jié)
本文簡單思考了初始化方法中非方陣的維度平均方案,一直以來,大家似乎對默認(rèn)的代數(shù)平均都沒有什么疑問,而筆者從兩種不同的角度得出了不同的平均策略的可能性。至于哪種平均策略更好,筆者也沒有仔細(xì)做實(shí)驗(yàn),有興趣的讀者自行嘗試就好。當(dāng)然,也可能在當(dāng)前諸多優(yōu)化策略之下,默認(rèn)的初始化方案也工作得很好了,也就沒有仔細(xì)調(diào)節(jié)的必要性了。
參考文獻(xiàn)
[1]?https://kexue.fm/archives/7180
[2]?https://kexue.fm/archives/8620
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗(yàn)講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時(shí)聯(lián)系方式(微信),以便我們在稿件選用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的初始化方法中非方阵的维度平均策略思考的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 纪念币兑换要现金吗
- 下一篇: 阿里云天池平台官方出品!从0到1层层拆解