當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

GELU的两个初等函数近似是怎么来的？

發布時間：2024/10/8 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 GELU的两个初等函数近似是怎么来的？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者｜蘇劍林

單位｜追一科技

研究方向｜NLP、神經網絡

GELU，全稱為 Gaussian Error Linear Unit，也算是 RELU 的變種，是一個非初等函數形式的激活函數。它由論文 Gaussian Error Linear Units (GELUs) [1] 提出，后來被用到了 GPT 中，再后來被用在了 BERT 中，再再后來的不少預訓練語言模型也跟著用到了它。

隨著 BERT 等預訓練語言模型的興起，GELU 也跟著水漲船高，莫名其妙地就成了熱門的激活函數了。

▲ GELU函數圖像

在 GELU 的原始論文中，作者不僅提出了 GELU 的精確形式，還給出了兩個初等函數的近似形式，本文來討論它們是怎么得到的。

GELU函數

GELU 函數的形式為：

其中是標準正態分布的累積概率函數，即：

這里。然后原論文還提了兩個近似：

以及：

現在仍然有不少 Transformer 架構模型的實現都是用近似（4）作為 GELU 函數的實現。不過很多框架已經有精確的計算函數了，所以初等函數近似形式的價值可能不會很大，因此大家就當是一道數學分析練習題吧。

用啥近似

顯然，要找 GELU 的近似形式，就相當于找近似，這也等價于找的近似。

▲ erf函數圖像

首先，我們要解決第一個問題：用什么函數來近似。從圖像我們可以看出它的特點：

1. 它是一個奇函數，即；

2. 它單調遞增，并且：

奇函數我們有很多，比如等，并且奇函數的疊加、復合函數依然是奇函數，比如；又是奇函數，又單調遞增且有界的，我們最容易想到的可能是，事實上，確實跟很相似。

因此，我們可以從觸發，構造一些可能的擬合形式，比如：

怎樣近似

有了待擬合的形式之外，下面要考慮的就是怎么擬合、以什么標準的問題了，說白了，就是想個辦法求出各項系數來。一般來說，有兩種思路：局部擬合和全局擬合。

3.1 局部擬合

局部擬合基于泰勒展開，比如考慮近似形式，我們在 x=0 處展開，得到：

讓前兩項為 0，剛好得到兩個方程，求解得到：

代入，并換成數值形式，那么就是：

3.2 全局擬合

式（8）已經跟式（4）很接近了，但是第二個系數還是差了點。這是因為（8）純粹是局部近似的結果，顧名思義，局部近似在局部會很精確，比如上面的推導是基于 x=0 處的泰勒展開，因此在 x=0 附近會比較精確，但是離 0 遠一點時誤差就會更大。因此，我們還需要考慮全局誤差。

比較容易想到的全局誤差是積分形式的，比如用去逼近 f(x) 時，我們去算：

但是，每個 x 處的誤差重要性可能不一樣，因此為了不失一般性，還要乘以一個權重，即：

不同的會導致不同的解，哪個最適合，也不容易選擇。

因此，我們不去優化這種積分形式的誤差，我們優化一個更直觀的形式的誤差：

這個式子很好理解，就是“找一個適當的，使得最大的都盡可能小”，這樣的目標符合我們的直觀理解，并且不涉及到權重的選取。

3.3 “局部-全局”混合

基于這個思想，我們固定，然后去重新求解。固定這個 a 是因為它是一階局部近似，我們希望保留一定的局部近似，同時希望 b 能盡可能幫我們減少全局誤差，從而實現局部近似與全局近似的混合。所以，現在我們要求解：

用 scipy 可以輕松完成求解：

import?numpy?as?np from?scipy.special?import?erf from?scipy.optimize?import?minimizedef?f(x,?b):a?=?np.sqrt(2?/?np.pi)return?np.abs(erf(x?/?np.sqrt(2))?-?np.tanh(a?*?x?+?b?*?x**3))def?g(b):return?np.max([f(x,?b)?for?x?in?np.arange(0,?4,?0.001)])options?=?{'xtol':?1e-10,?'ftol':?1e-10,?'maxiter':?100000} result?=?minimize(g,?0,?method='Powell',?options=options) print(result.x)

最后得到 b=0.035677337314877385，對應的形式就是：

最后幾位有效數字可能有誤差，但前面部分已經跟式（4）完美契合了。補充說明下，式（4）提出自論文 Approximations to the Cumulative Normal Function and its Inverse for Use on a Pocket Calculator [2] ，已經是 40 多年前的結果了。

至于第一個近似，則來自論文 A logistic approximation to the cumulative normal distribution [3] ，它是直接用全局逼近的結果，即：

解得，即：

這跟式（3）同樣很吻合。

文章小結

本文帶大家一起做了道數學分析題——介紹了 GELU 激活函數，并試圖探索了它的兩個近似形式的來源。

參考鏈接

[1] https://arxiv.org/abs/1606.08415

[2] https://www.jstor.org/stable/2346872

[3] https://core.ac.uk/download/pdf/41787448.pdf

點擊以下標題查看更多往期內容：?

變分推斷（Variational Inference）最新進展簡述
變分自編碼器VAE：原來是這么一回事
圖神經網絡三劍客：GCN、GAT與GraphSAGE
如何快速理解馬爾科夫鏈蒙特卡洛法？
深度學習預訓練模型可解釋性概覽
ICLR 2020：從去噪自編碼器到生成模型

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的GELU的两个初等函数近似是怎么来的？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：美股怎么开户
下一篇：消息称苹果放弃开发智能戒指，已内部探索多