日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Newton Method in Maching Learning

發(fā)布時(shí)間:2023/12/4 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Newton Method in Maching Learning 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

牛頓方法:轉(zhuǎn)自http://blog.csdn.net/andrewseu/article/details/46771947

本講大綱:

1.牛頓方法(Newton’s method)
2.指數(shù)族(Exponential family)
3.廣義線性模型(Generalized linear models)

1.牛頓方法

假設(shè)有函數(shù):,我們希望找到滿足的值. 這里是實(shí)數(shù).
牛頓方法執(zhí)行下面的更新:

下圖為執(zhí)行牛頓方法的過(guò)程:

簡(jiǎn)單的來(lái)說(shuō)就是通過(guò)求當(dāng)前點(diǎn)的導(dǎo)數(shù)得到下一個(gè)點(diǎn).用到的性質(zhì)是導(dǎo)數(shù)值等于該點(diǎn)切線和橫軸夾角的正切值.

令,我們可以用同樣的算法去最大化

牛頓方法的一般化:
如果是一個(gè)向量,那么:

其中,是對(duì)的偏導(dǎo)數(shù);
H稱為黑塞矩陣(Hessian matrix),是一個(gè)n*n的矩陣,n是特征量的個(gè)數(shù),并且(==當(dāng)年學(xué)的各種名詞又開(kāi)始在腦海里翻滾==)

牛頓方法的收斂速度比批處理梯度下降快很多,很少次的迭代就能夠非常接近最小值了;但是當(dāng)n很大時(shí),每次迭代求黑塞矩陣和黑塞矩陣的逆代價(jià)是很大的.

與其不同,梯度下降方法采用的步長(zhǎng)如下:


2.指數(shù)族

指數(shù)族形式:

其中,被稱為自然參數(shù)(natural parameter)或者典范參數(shù)(canonical parameter);
T(y)是充分統(tǒng)計(jì)量(sufficient statistic)(對(duì)于我們考慮的分布來(lái)說(shuō),通常T(y)=y);
是日志分配函數(shù)(log partition function),是一個(gè)規(guī)范化常數(shù),使得分布的和為1.
給定T,a,b,通過(guò)改變參數(shù)得到不同的分布.

下面展示伯努利(Bernoulli)高斯分布(Gaussian distribution)都是指數(shù)分布族的特例:

伯努利分布可以寫成:

因此,令(有趣地發(fā)現(xiàn)其反函數(shù)為),并且,

高斯分布:
回憶我們對(duì)線性回歸求導(dǎo)時(shí),方差對(duì)我們最終結(jié)果并沒(méi)有任何影響.為了使問(wèn)題簡(jiǎn)化,令于是有,

得:

指數(shù)分布族還包括很多其他的分布:
多項(xiàng)式分布(multinomial)
泊松分布(poisson):用于計(jì)數(shù)的建模
伽馬分布(gamma),指數(shù)分布(exponential):用于對(duì)連續(xù)非負(fù)的隨機(jī)變量進(jìn)行建模
β分布Dirichlet分布:對(duì)小數(shù)建模

3.GLMS

為了導(dǎo)出GLM,作三個(gè)假設(shè):
(1)
(2)給定x,我們的目標(biāo)是預(yù)測(cè)T(y)的預(yù)期值. 在大部分例子中,我們有T(y)=y,因此意味著我們通過(guò)學(xué)習(xí)得到的假設(shè)滿足(這個(gè)假設(shè)對(duì)logistic回歸和線性回歸都成立)
(3)自然參數(shù)和輸入變量是線性相關(guān)的,也就是說(shuō)(如果自然參數(shù)是向量,則)

3.1普通的最小二乘法
為了說(shuō)明普通的最小二乘法是GLM的特例,設(shè)定目標(biāo)變量y(在GLM術(shù)語(yǔ)中叫響應(yīng)變量-response variable)是連續(xù)的,并且假設(shè)服從高斯分布,高斯分布寫成指數(shù)族的形式,有得到:

3.2 logistic回歸
考慮logistic,我們感興趣的是二元分類,也就是說(shuō)很容易想到指數(shù)分布族的伯努利分布,有,同理得到:

正則響應(yīng)函數(shù)(canonical response function):
正則鏈接函數(shù)(canonical link function):

3.3 softmax 回歸
當(dāng)分類問(wèn)題的y取值不止兩個(gè)時(shí),我們需要采用多項(xiàng)式分布(multinomial distribution).

在推導(dǎo)多項(xiàng)式分布的GLM之前,先把多項(xiàng)式分布表達(dá)成指數(shù)族.

為了參數(shù)化多項(xiàng)式分布的k各可能結(jié)果,有人可能會(huì)用k個(gè)參數(shù)來(lái)說(shuō)明每一種情況的可能性,但是這些參數(shù)是冗余的,并且并不是獨(dú)立的(由于知道任何其中的k-1個(gè),剩下的一個(gè)就可以求出,因?yàn)闈M足). 因此我們用k-1個(gè)參數(shù)對(duì)多項(xiàng)分布進(jìn)行參數(shù)化,.
定義,如下,

介紹一個(gè)很有用的記號(hào),,例如1{2=3}=0,1{3=5-2}=1.
因此T(y)和y的關(guān)系為.
并且有,因此:

鏈接函數(shù)為,,為了方便,定義.

可得:

因此,反代回去得到響應(yīng)函數(shù):

從η到的映射叫做softmax函數(shù).

根據(jù)假設(shè)3,得到:

這個(gè)應(yīng)用于分類問(wèn)題(當(dāng)),叫做softmax回歸(softmax regression).是logistic回歸的推廣.

與最小二乘法和logistic回歸類似,

再通過(guò)梯度上升或者牛頓方法求出θ.


總結(jié)

以上是生活随笔為你收集整理的Newton Method in Maching Learning的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。