當前位置：首頁 > 运维知识 > windows >内容正文

windows

神经网络优化篇：理解指数加权平均数（Understanding exponentially weighted averages）

發(fā)布時間：2024/1/16 windows 30 coder

生活随笔收集整理的這篇文章主要介紹了神经网络优化篇：理解指数加权平均数（Understanding exponentially weighted averages）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

理解指數(shù)加權(quán)平均數(shù)

回憶一下這個計算指數(shù)加權(quán)平均數(shù)的關(guān)鍵方程。

\({{v}_{t}}=\beta {{v}_{t-1}}+(1-\beta ){{\theta }_{t}}\)

\(\beta=0.9\)的時候，得到的結(jié)果是紅線，如果它更接近于1，比如0.98，結(jié)果就是綠線，如果\(\beta\)小一點，如果是0.5，結(jié)果就是黃線。

進一步地分析，來理解如何計算出每日溫度的平均值。

同樣的公式，\({{v}_{t}}=\beta {{v}_{t-1}}+(1-\beta ){{\theta }_{t}}\)

使\(\beta=0.9\)，寫下相應(yīng)的幾個公式，所以在執(zhí)行的時候，\(t\)從0到1到2到3，\(t\)的值在不斷增加，為了更好地分析，寫的時候使得\(t\)的值不斷減小，然后繼續(xù)往下寫。

首先看第一個公式，理解\(v_{100}\)是什么？調(diào)換一下這兩項（\(0.9v_{99}0.1\theta_{100}\)），\(v_{100}= 0.1\theta_{100} + 0.9v_{99}\)。

那么\(v_{99}\)是什么？就代入這個公式（\(v_{99} = 0.1\theta_{99} +0.9v_{98}\)），所以：

\(v_{100} = 0.1\theta_{100} + 0.9(0.1\theta_{99} + 0.9v_{98})\)。

那么\(v_{98}\)是什么？可以用這個公式計算（\(v_{98} = 0.1\theta_{98} +0.9v_{97}\)），把公式代進去，所以：

\(v_{100} = 0.1\theta_{100} + 0.9(0.1\theta_{99} + 0.9(0.1\theta_{98} +0.9v_{97}))\)。

以此類推，如果把這些括號都展開，

\(v_{100} = 0.1\theta_{100} + 0.1 \times 0.9 \theta_{99} + 0.1 \times {(0.9)}^{2}\theta_{98} + 0.1 \times {(0.9)}^{3}\theta_{97} + 0.1 \times {(0.9)}^{4}\theta_{96} + \ldots\)

所以這是一個加和并平均，100號數(shù)據(jù)，也就是當日溫度。分析\(v_{100}\)的組成，也就是在一年第100天計算的數(shù)據(jù)，但是這個是總和，包括100號數(shù)據(jù)，99號數(shù)據(jù)，97號數(shù)據(jù)等等。畫圖的一個辦法是，假設(shè)有一些日期的溫度，所以這是數(shù)據(jù)，這是\(t\)，所以100號數(shù)據(jù)有個數(shù)值，99號數(shù)據(jù)有個數(shù)值，98號數(shù)據(jù)等等，\(t\)為100，99，98等等，這就是數(shù)日的溫度數(shù)值。

然后構(gòu)建一個指數(shù)衰減函數(shù)，從0.1開始，到\(0.1 \times 0.9\)，到\(0.1 \times {(0.9)}^{2}\)，以此類推，所以就有了這個指數(shù)衰減函數(shù)。

計算\(v_{100}\)是通過，把兩個函數(shù)對應(yīng)的元素，然后求和，用這個數(shù)值100號數(shù)據(jù)值乘以0.1，99號數(shù)據(jù)值乘以0.1乘以\({(0.9)}^{2}\)，這是第二項，以此類推，所以選取的是每日溫度，將其與指數(shù)衰減函數(shù)相乘，然后求和，就得到了\(v_{100}\)。

結(jié)果是，稍后詳細講解，不過所有的這些系數(shù)（\(0.10.1 \times 0.90.1 \times {(0.9)}^{2}0.1 \times {(0.9)}^{3}\ldots\)），相加起來為1或者逼近1，稱之為偏差修正。

最后也許會問，到底需要平均多少天的溫度。實際上\({(0.9)}^{10}\)大約為0.35，這大約是\(\frac{1}{e}\)，e是自然算法的基礎(chǔ)之一。大體上說，如果有\(1-\varepsilon\)，在這個例子中，\(\varepsilon=0.1\)，所以\(1-\varepsilon=0.9\)，\({(1-\varepsilon)}^{(\frac{1}{\varepsilon})}\)約等于\(\frac{1}{e}\)，大約是0.34，0.35，換句話說，10天后，曲線的高度下降到\(\frac{1}{3}\)，相當于在峰值的\(\frac{1}{e}\)。

又因此當\(\beta=0.9\)的時候，說仿佛在計算一個指數(shù)加權(quán)平均數(shù)，只關(guān)注了過去10天的溫度，因為10天后，權(quán)重下降到不到當日權(quán)重的三分之一。

相反，如果，那么0.98需要多少次方才能達到這么小的數(shù)值？\({(0.98)}^{50}\)大約等于\(\frac{1}{e}\)，所以前50天這個數(shù)值比\(\frac{1}{e}\)大，數(shù)值會快速衰減，所以本質(zhì)上這是一個下降幅度很大的函數(shù)，可以看作平均了50天的溫度。因為在例子中，要代入等式的左邊，\(\varepsilon=0.02\)，所以\(\frac{1}{\varepsilon}\)為50，由此得到公式，平均了大約\(\frac{1}{(1-\beta)}\)天的溫度，這里\(\varepsilon\)代替了\(1-\beta\)，也就是說根據(jù)一些常數(shù)，能大概知道能夠平均多少日的溫度，不過這只是思考的大致方向，并不是正式的數(shù)學證明。

最后講講如何在實際中執(zhí)行，還記得嗎？一開始將\(v_{0}\)設(shè)置為0，然后計算第一天\(v_{1}\)，然后\(v_{2}\)，以此類推。

現(xiàn)在解釋一下算法，可以將\(v_{0}\)，\(v_{1}\)，\(v_{2}\)等等寫成明確的變量，不過在實際中執(zhí)行的話，要做的是，一開始將\(v\)初始化為0，然后在第一天使\(v:= \beta v + (1 - \beta)\theta_{1}\)，然后第二天，更新\(v\)值，\(v: = \beta v + (1 -\beta)\theta_{2}\)，以此類推，有些人會把\(v\)加下標，來表示\(v\)是用來計算數(shù)據(jù)的指數(shù)加權(quán)平均數(shù)。

再說一次，但是換個說法，\(v_{\theta} =0\)，然后每一天，拿到第\(t\)天的數(shù)據(jù)，把\(v\)更新為\(v: = \beta v_{\theta} + (1 -\beta)\theta_{t}\)。

指數(shù)加權(quán)平均數(shù)公式的好處之一在于，它占用極少內(nèi)存，電腦內(nèi)存中只占用一行數(shù)字而已，然后把最新數(shù)據(jù)代入公式，不斷覆蓋就可以了，正因為這個原因，其效率，它基本上只占用一行代碼，計算指數(shù)加權(quán)平均數(shù)也只占用單行數(shù)字的存儲和內(nèi)存，當然它并不是最好的，也不是最精準的計算平均數(shù)的方法。如果要計算移動窗，直接算出過去10天的總和，過去50天的總和，除以10和50就好，如此往往會得到更好的估測。但缺點是，如果保存所有最近的溫度數(shù)據(jù)，和過去10天的總和，必須占用更多的內(nèi)存，執(zhí)行更加復(fù)雜，計算成本也更加高昂。

總結(jié)

以上是生活随笔為你收集整理的神经网络优化篇：理解指数加权平均数（Understanding exponentially weighted averages）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：面试官：String长度有限制吗？是多少
下一篇： java信息管理系统总结_java实现科