日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

初始化方法中非方阵的维度平均策略思考

發(fā)布時(shí)間:2024/10/8 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 初始化方法中非方阵的维度平均策略思考 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者 | 蘇劍林

單位 | 追一科技

研究方向 | NLP、神經(jīng)網(wǎng)絡(luò)

在《從幾何視角來理解模型參數(shù)的初始化策略》[1]、《淺談Transformer的初始化、參數(shù)化與標(biāo)準(zhǔn)化》[2] 等文章,我們討論過模型的初始化方法,大致的思路是:如果一個 的方陣用均值為 0、方差為 1/n 的獨(dú)立同分布初始化,那么近似于一個正交矩陣,使得數(shù)據(jù)二階矩(或方差)在傳播過程中大致保持不變。

那如果是 的非方陣呢?常見的思路(Xavier初始化)是綜合考慮前向傳播和反向傳播,所以使用均值為 0、方差為 2/(m+n) 的獨(dú)立同分布初始化。但這個平均更多是“拍腦袋”的,本文就來探究一下有沒有更好的平均方案。

基礎(chǔ)回顧

Xavier 初始化是考慮如下的全連接層(設(shè)輸入節(jié)點(diǎn)數(shù)為 m,輸出節(jié)點(diǎn)數(shù)為 n):

其中 一般初始化為 0, 的初始化均值一般也為 0,在《淺談Transformer的初始化、參數(shù)化與標(biāo)準(zhǔn)化》[2]?中我們已經(jīng)算得:

所以為了保持二階矩不變,我們將 的初始化方差設(shè)為 1/m(均值為 0 時(shí),方差等于二階矩)。

但這個推導(dǎo)還只是考慮了前向傳播,我們還需要使得模型有合理的梯度,那么還要使得模型在反向傳播時(shí)也保持穩(wěn)定。假設(shè)模型的損失函數(shù)為 l,根據(jù)鏈?zhǔn)椒▌t我們有:

注意這時(shí)是對 j 求和,求和的維度為 n,所以在相同的假設(shè)下有:

所以要保持反向傳播的二階矩不變,我們將 的初始化方差設(shè)為 1/n。

一個是 1/m,一個 1/n,當(dāng) 時(shí)就有沖突,但兩個都同樣重要,所以 Xavier 初始化就直接將兩個維度平均一下,以 2/(m+n) 為方差進(jìn)行初始化。

幾何平均

現(xiàn)在讓我們來考慮兩個復(fù)合的全連接層(暫時(shí)忽略偏置項(xiàng)):

其中 ,也就是說,輸入是 m 維,變換為 n 維后再變換回 m 維,類似的操作比如 BERT 的 FFN 層(但 FFN 層中間多了個激活函數(shù))。

根據(jù)前向傳播的穩(wěn)定性,我們應(yīng)該要用 1/m 的方差初始化 、用 1/n 的方差初始化 。但是,如果我們要求 和 必須用同一方差初始化呢?那么很顯然,為了保證 x,y 的方差不變, 都需要用方差為 的分布來初始化。如果考慮反向傳播時(shí),結(jié)果是相同的。

這樣一來,我們就導(dǎo)出了一個新的維度平均策略:幾何平均 。通過這個維度平均策略,我們可以使得在多層網(wǎng)絡(luò)復(fù)合的時(shí)候,如果輸入輸出維度不變,那么方差就保持不變(不管前向傳播還是反向傳播)。而如果是代數(shù)平均 (m+n)/2,假設(shè) m < n,那么根據(jù) ,在前向傳播的時(shí)候方差就會縮小,反向傳播的時(shí)候方差就會擴(kuò)大了。

二次平均

另外一個思考的角度是作為一個雙重最小化問題:假設(shè)選用的方差為t,在前向傳播時(shí)我們希望 盡可能小,在反向傳播時(shí)我們則希望 盡可能小,所以綜合考慮:

當(dāng) 時(shí),上式取到最小值,所以這得到了一個二次分式的平均方案:。

容易證明:

從推導(dǎo)過程上來看,左端的二次平均是希望每一步前向和反向傳播的方差盡可能不變,因此可以認(rèn)為左端是一個局部最優(yōu)解;而右端的幾何平均,則是希望“最初的輸入”和“最終的輸出”的方差盡量不變,因此可以認(rèn)為右端某種意義上來說是一個全局最優(yōu)解;而中間的代數(shù)平均,則是介乎全局最優(yōu)和局部最優(yōu)之間的一個解。

如此看來,似乎 Xavier 初始化“拍腦袋”的代數(shù)平均也不失為一個“中庸之道”的選擇?

文章小結(jié)

本文簡單思考了初始化方法中非方陣的維度平均方案,一直以來,大家似乎對默認(rèn)的代數(shù)平均都沒有什么疑問,而筆者從兩種不同的角度得出了不同的平均策略的可能性。至于哪種平均策略更好,筆者也沒有仔細(xì)做實(shí)驗(yàn),有興趣的讀者自行嘗試就好。當(dāng)然,也可能在當(dāng)前諸多優(yōu)化策略之下,默認(rèn)的初始化方案也工作得很好了,也就沒有仔細(xì)調(diào)節(jié)的必要性了。

參考文獻(xiàn)

[1]?https://kexue.fm/archives/7180

[2]?https://kexue.fm/archives/8620

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競賽經(jīng)驗(yàn)講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時(shí)聯(lián)系方式(微信),以便我們在稿件選用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的初始化方法中非方阵的维度平均策略思考的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产精品日韩欧美大师 | 久久精品久久精品久久精品 | 色噜噜综合 | 一级做a爱片性色毛片 | 日本三级韩国三级三级a级按摩 | 久久99这里只有精品 | 欧美成人精品一区二区男人小说 | 日韩一区二区三区不卡 | 久久久久久久久久久久电影 | 免费一级黄色片 | 999色综合| 日本裸体xx少妇18在线 | 污视频网站在线播放 | 国产午夜一级一片免费播放 | 第四色成人网 | 未满十八岁禁止进入 | 欧美一级片a | 动漫av在线 | 国产精品亚洲天堂 | 久久精品女人 | 男人狂揉女人下部视频 | av在线观看地址 | 天堂av2021| 18深夜在线观看免费视频 | 美日韩成人| 999视频| 欧美另类激情 | 老女人做爰全过程免费的视频 | 波多野结衣高清电影 | 国产第一页屁屁影院 | 中文字幕第九页 | 成年人网站免费视频 | 日日操夜夜骑 | 乳揉みま痴汉4在线播放 | 99国产精品久久久久久久 | 性色视频 | 精品国产乱码久久久久久预案 | 亚洲色图视频在线观看 | 国产欧美精品一区二区 | 韩日一级片 | 黄色一级视频免费 | 毛片av网站| 色图社区 | 日韩av片免费观看 | 欧美一级看片 | 在线看a级片 | 久艹在线观看视频 | 亚洲成人va | 91美女视频 | 久久露脸国语精品国产91 | 青青青视频在线播放 | 先锋影音av在线资源 | 日本囗交做爰视频 | 内射国产内射夫妻免费频道 | 中出一区二区 | 97超级碰碰碰 | 韩国妻子的朋友 | 国产黄在线观看 | 亚洲永久免费观看 | 欧美八区 | 日日影院 | 日皮视频免费看 | 日韩午夜在线视频 | 日韩精品少妇 | 国产无遮挡18禁无码网站不卡 | 国模私拍在线观看 | 国模在线 | 国产成人精品777777 | 欧美九九视频 | 国产+日韩+欧美 | 日韩精品成人在线 | 国产丰满大乳奶水在线视频 | 亚洲人成7777 | 在线一区二区三区四区五区 | www.超碰在线 | 国产美女精品一区二区三区 | 中年夫妇啪啪高潮 | 成人久久毛片 | 亚洲成人诱惑 | 日本暧暧视频 | 色婷婷亚洲综合 | 日韩亚洲精品在线 | www.av小说 | 欧洲精品视频在线 | 人妻精品一区 | 都市激情一区 | 粉嫩小箩莉奶水四溅在线观看 | 性猛交ⅹxxx富婆视频 | 五月开心网 | 亚洲精品欧洲精品 | 国产操操操| 国产ts在线视频 | 亚洲一区欧美日韩 | 国产精品久久久久久久毛片 | 精品人妻一区二区三区免费 | 日日夜夜一区 | 亚洲国产黄色 | 青青草视频播放 | 亚洲加勒比 |