探究Softmax的替代品:exp(x)的偶次泰勒展开式总是正的
?PaperWeekly 原創 ·?作者|蘇劍林
單位|追一科技
研究方向|NLP、神經網絡
剛看到一個有意思的結論:
對于任意實數 x 及偶數 n,總有 ,即 的偶次泰勒展開式總是正的。
下面我們來看一下這個結論的證明,以及它在尋找 softmax 替代品中的應用。
證明過程
看上去這是一個很強的結果,證明會不會很復雜?其實證明非常簡單,記:
當 n 是偶數時,我們有 ,即整體是開口向上的,所以我們只需要證明它的最小值大于 0 就行了,又因為它是一個光滑連續的多項式函數,所以最小值點必然是某個極小值點。那么換個角度想,我們只需要證明它所有的極值點(不管是極大還是極小)所對應的函數值都大于 0。
求極值點的方法自然是求導,而 的一個美妙之處在于,它的導函數滿足:
極值點滿足 ,那也就是滿足 ,此時有:
因此我們就證明了 的所有極值點對應的函數值都非負了,所以恒有 ,并且還可以檢驗 并不是極值點,所以 可以改為 >。證畢。
應用場景
事實上,筆者是在 Arxiv 的新文章 Exploring Alternatives to Softmax Function?[1] 看到這個結論的。原論文給出了一個基于數學歸納法的比較復雜的證明,上述證明則是筆者自己構思的,相對來說更加簡單明了一些。
那么原論文為什么要得到這個結論呢?顧名思義,是為了探究 softmax 的替代品。我們知道,在機器學習中常用的將輸出變為概率分布的方法是加上 softmax:
而由于 n 是偶數是 ,并且 在一定范圍內還是 的近似,所以將 換成 也可以作為合理的歸一化函數:
原論文做了幾個實驗,表明 比常規的 softmax 有一定的提升:
▲ softmax與其泰勒展開近似的效果比較
稍加評述
然而,在筆者看來,這個實驗結果很難有什么說服力,畢竟所用的 baseline 效果太低了(都 2020 年了,你好歹跑個 ResNet 吧?)。此外,原論文也沒有提供關于這個替代品的一些直觀理解,純粹是做了簡單的實驗然后說它 work 了,實在是過于粗糙。
不過,盡管原論文有諸多不足之處,筆者認為其提出的 倒是真的有可能是有效的。從 softmax 到 的過程,實際上是將激活函數從指數函數換成了多項式函數,這兩者有什么區別呢?
我們知道 |x| 比較大的時候, 會增加/衰減得很快,這直接導致了 softmax 經常給出的置信度過高的現象(概率值非 0 即 1),而相對來說,多項式函數的增長沒有那么猛,不容易出現置信度過高問題,從而沒那么容易過擬合。
類似的改動也出現在經典的降維方法 t-SNE 中,t-SNE 的前身是 SNE,SNE 就是構造了類似 softmax 的指數形式的概率分布,然后被發現有“Crowding 問題”(參考最小熵原理:“物以類聚”之從圖書館到詞向量),最后 t-SNE 將指數換成二次函數就好很多了,感覺 跟 t-SNE 的思想有一定的相通之處。
文章小結
本文的主要目的是介紹“ 的偶次泰勒展開式總是正的”這個頗有意思的結論,并且順帶介紹了它在尋找 softmax 替代品中的應用。
參考文獻
[1] https://arxiv.org/abs/2011.11538
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的探究Softmax的替代品:exp(x)的偶次泰勒展开式总是正的的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AI工程师面试凭高频问题提前准备,命中率
- 下一篇: 酒鬼酒产地是哪儿