日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

GELU的两个初等函数近似是怎么来的?

發布時間:2024/10/8 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 GELU的两个初等函数近似是怎么来的? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者|蘇劍林

單位|追一科技

研究方向|NLP、神經網絡

GELU,全稱為 Gaussian Error Linear Unit,也算是 RELU 的變種,是一個非初等函數形式的激活函數。它由論文 Gaussian Error Linear Units (GELUs) [1] 提出,后來被用到了 GPT 中,再后來被用在了 BERT 中,再再后來的不少預訓練語言模型也跟著用到了它。

隨著 BERT 等預訓練語言模型的興起,GELU 也跟著水漲船高,莫名其妙地就成了熱門的激活函數了。

▲ GELU函數圖像

在 GELU 的原始論文中,作者不僅提出了 GELU 的精確形式,還給出了兩個初等函數的近似形式,本文來討論它們是怎么得到的。

GELU函數

GELU 函數的形式為:

其中 是標準正態分布的累積概率函數,即:

這里 。然后原論文還提了兩個近似:

以及:

現在仍然有不少 Transformer 架構模型的實現都是用近似(4)作為 GELU 函數的實現。不過很多框架已經有精確的 計算函數了,所以初等函數近似形式的價值可能不會很大,因此大家就當是一道數學分析練習題吧。

用啥近似

顯然,要找 GELU 的近似形式,就相當于找 近似,這也等價于找 的近似。

▲ erf函數圖像

首先,我們要解決第一個問題:用什么函數來近似。從 圖像我們可以看出它的特點:

1. 它是一個奇函數,即 ;

2. 它單調遞增,并且:

奇函數我們有很多,比如 等,并且奇函數的疊加、復合函數依然是奇函數,比如 ;又是奇函數,又單調遞增且有界的,我們最容易想到的可能是 ,事實上, 確實跟 很相似。

因此,我們可以從 觸發,構造一些可能的擬合形式,比如:

怎樣近似

有了待擬合的形式之外,下面要考慮的就是怎么擬合、以什么標準的問題了,說白了,就是想個辦法求出各項系數來。一般來說,有兩種思路:局部擬合和全局擬合。

3.1 局部擬合

局部擬合基于泰勒展開,比如考慮近似形式 ,我們在 x=0 處展開,得到:

讓前兩項為 0,剛好得到兩個方程,求解得到:

代入 ,并換成數值形式,那么就是:

3.2 全局擬合

式(8)已經跟式(4)很接近了,但是第二個系數還是差了點。這是因為(8)純粹是局部近似的結果,顧名思義,局部近似在局部會很精確,比如上面的推導是基于 x=0 處的泰勒展開,因此在 x=0 附近會比較精確,但是離 0 遠一點時誤差就會更大。因此,我們還需要考慮全局誤差。

比較容易想到的全局誤差是積分形式的,比如用 去逼近 f(x) 時,我們去算:

但是,每個 x 處的誤差重要性可能不一樣,因此為了不失一般性,還要乘以一個權重 ,即:

不同的 會導致不同的解,哪個 最適合,也不容易選擇。

因此,我們不去優化這種積分形式的誤差,我們優化一個更直觀的 形式的誤差:

這個式子很好理解,就是“找一個適當的 ,使得最大的 都盡可能小”,這樣的目標符合我們的直觀理解,并且不涉及到權重的選取。

3.3 “局部-全局”混合

基于這個思想,我們固定 ,然后去重新求解 。固定這個 a 是因為它是一階局部近似,我們希望保留一定的局部近似,同時希望 b 能盡可能幫我們減少全局誤差,從而實現局部近似與全局近似的混合。所以,現在我們要求解:

用 scipy 可以輕松完成求解:

import?numpy?as?np from?scipy.special?import?erf from?scipy.optimize?import?minimizedef?f(x,?b):a?=?np.sqrt(2?/?np.pi)return?np.abs(erf(x?/?np.sqrt(2))?-?np.tanh(a?*?x?+?b?*?x**3))def?g(b):return?np.max([f(x,?b)?for?x?in?np.arange(0,?4,?0.001)])options?=?{'xtol':?1e-10,?'ftol':?1e-10,?'maxiter':?100000} result?=?minimize(g,?0,?method='Powell',?options=options) print(result.x)

最后得到 b=0.035677337314877385,對應的形式就是:

最后幾位有效數字可能有誤差,但前面部分已經跟式(4)完美契合了。補充說明下,式(4)提出自論文 Approximations to the Cumulative Normal Function and its Inverse for Use on a Pocket Calculator [2] ,已經是 40 多年前的結果了。

至于第一個近似,則來自論文 A logistic approximation to the cumulative normal distribution [3] ,它是直接用 全局逼近 的結果,即:

解得 ,即:

這跟式(3)同樣很吻合。

文章小結

本文帶大家一起做了道數學分析題——介紹了 GELU 激活函數,并試圖探索了它的兩個近似形式的來源。

參考鏈接

[1] https://arxiv.org/abs/1606.08415

[2] https://www.jstor.org/stable/2346872

[3] https://core.ac.uk/download/pdf/41787448.pdf

點擊以下標題查看更多往期內容:?

  • 變分推斷(Variational Inference)最新進展簡述

  • 變分自編碼器VAE:原來是這么一回事

  • 圖神經網絡三劍客:GCN、GAT與GraphSAGE

  • 如何快速理解馬爾科夫鏈蒙特卡洛法?

  • 深度學習預訓練模型可解釋性概覽

  • ICLR 2020:從去噪自編碼器到生成模型

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的GELU的两个初等函数近似是怎么来的?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。