Newton Method in Maching Learning
牛頓方法:轉(zhuǎn)自http://blog.csdn.net/andrewseu/article/details/46771947
本講大綱:
1.牛頓方法(Newton’s method)
2.指數(shù)族(Exponential family)
3.廣義線性模型(Generalized linear models)
1.牛頓方法
假設(shè)有函數(shù):,我們希望找到滿足的值. 這里是實(shí)數(shù).
牛頓方法執(zhí)行下面的更新:
下圖為執(zhí)行牛頓方法的過程:
簡單的來說就是通過求當(dāng)前點(diǎn)的導(dǎo)數(shù)得到下一個點(diǎn).用到的性質(zhì)是導(dǎo)數(shù)值等于該點(diǎn)切線和橫軸夾角的正切值.
令,我們可以用同樣的算法去最大化
牛頓方法的一般化:
如果是一個向量,那么:
其中,是對的偏導(dǎo)數(shù);
H稱為黑塞矩陣(Hessian matrix),是一個n*n的矩陣,n是特征量的個數(shù),并且(==當(dāng)年學(xué)的各種名詞又開始在腦海里翻滾==)
牛頓方法的收斂速度比批處理梯度下降快很多,很少次的迭代就能夠非常接近最小值了;但是當(dāng)n很大時,每次迭代求黑塞矩陣和黑塞矩陣的逆代價是很大的.
與其不同,梯度下降方法采用的步長如下:
2.指數(shù)族
指數(shù)族形式:
其中,被稱為自然參數(shù)(natural parameter)或者典范參數(shù)(canonical parameter);
T(y)是充分統(tǒng)計(jì)量(sufficient statistic)(對于我們考慮的分布來說,通常T(y)=y);
是日志分配函數(shù)(log partition function),是一個規(guī)范化常數(shù),使得分布的和為1.
給定T,a,b,通過改變參數(shù)得到不同的分布.
下面展示伯努利(Bernoulli)和高斯分布(Gaussian distribution)都是指數(shù)分布族的特例:
伯努利分布可以寫成:
因此,令(有趣地發(fā)現(xiàn)其反函數(shù)為),并且,
高斯分布:
回憶我們對線性回歸求導(dǎo)時,方差對我們最終結(jié)果并沒有任何影響.為了使問題簡化,令于是有,
得:
指數(shù)分布族還包括很多其他的分布:
多項(xiàng)式分布(multinomial)
泊松分布(poisson):用于計(jì)數(shù)的建模
伽馬分布(gamma),指數(shù)分布(exponential):用于對連續(xù)非負(fù)的隨機(jī)變量進(jìn)行建模
β分布,Dirichlet分布:對小數(shù)建模
3.GLMS
為了導(dǎo)出GLM,作三個假設(shè):
(1)
(2)給定x,我們的目標(biāo)是預(yù)測T(y)的預(yù)期值. 在大部分例子中,我們有T(y)=y,因此意味著我們通過學(xué)習(xí)得到的假設(shè)滿足(這個假設(shè)對logistic回歸和線性回歸都成立)
(3)自然參數(shù)和輸入變量是線性相關(guān)的,也就是說(如果自然參數(shù)是向量,則)
3.1普通的最小二乘法
為了說明普通的最小二乘法是GLM的特例,設(shè)定目標(biāo)變量y(在GLM術(shù)語中叫響應(yīng)變量-response variable)是連續(xù)的,并且假設(shè)服從高斯分布,高斯分布寫成指數(shù)族的形式,有得到:
3.2 logistic回歸
考慮logistic,我們感興趣的是二元分類,也就是說很容易想到指數(shù)分布族的伯努利分布,有,同理得到:
正則響應(yīng)函數(shù)(canonical response function):
正則鏈接函數(shù)(canonical link function):
3.3 softmax 回歸
當(dāng)分類問題的y取值不止兩個時,我們需要采用多項(xiàng)式分布(multinomial distribution).
在推導(dǎo)多項(xiàng)式分布的GLM之前,先把多項(xiàng)式分布表達(dá)成指數(shù)族.
為了參數(shù)化多項(xiàng)式分布的k各可能結(jié)果,有人可能會用k個參數(shù)來說明每一種情況的可能性,但是這些參數(shù)是冗余的,并且并不是獨(dú)立的(由于知道任何其中的k-1個,剩下的一個就可以求出,因?yàn)闈M足). 因此我們用k-1個參數(shù)對多項(xiàng)分布進(jìn)行參數(shù)化,.
定義,如下,
介紹一個很有用的記號,,例如1{2=3}=0,1{3=5-2}=1.
因此T(y)和y的關(guān)系為.
并且有,因此:
鏈接函數(shù)為,,為了方便,定義.
可得:
因此,反代回去得到響應(yīng)函數(shù):
從η到的映射叫做softmax函數(shù).
根據(jù)假設(shè)3,得到:
這個應(yīng)用于分類問題(當(dāng)),叫做softmax回歸(softmax regression).是logistic回歸的推廣.
與最小二乘法和logistic回歸類似,
再通過梯度上升或者牛頓方法求出θ.
總結(jié)
以上是生活随笔為你收集整理的Newton Method in Maching Learning的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么早睡有利于减肥
- 下一篇: GPU Shader 程序调试方法