當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Newton Method in Maching Learning

發(fā)布時間：2023/12/4 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了 Newton Method in Maching Learning 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

牛頓方法：轉(zhuǎn)自http://blog.csdn.net/andrewseu/article/details/46771947

本講大綱：

1.牛頓方法(Newton’s method)
2.指數(shù)族(Exponential family)
3.廣義線性模型(Generalized linear models)

1.牛頓方法

假設(shè)有函數(shù)：，我們希望找到滿足的值. 這里是實數(shù).
牛頓方法執(zhí)行下面的更新：

下圖為執(zhí)行牛頓方法的過程：

簡單的來說就是通過求當前點的導數(shù)得到下一個點.用到的性質(zhì)是導數(shù)值等于該點切線和橫軸夾角的正切值.

令，我們可以用同樣的算法去最大化

牛頓方法的一般化：
如果是一個向量，那么：

其中，是對的偏導數(shù)；
H稱為黑塞矩陣(Hessian matrix),是一個n*n的矩陣，n是特征量的個數(shù)，并且（==當年學的各種名詞又開始在腦海里翻滾==）

牛頓方法的收斂速度比批處理梯度下降快很多，很少次的迭代就能夠非常接近最小值了；但是當n很大時，每次迭代求黑塞矩陣和黑塞矩陣的逆代價是很大的.

與其不同，梯度下降方法采用的步長如下：

2.指數(shù)族

指數(shù)族形式：

其中，被稱為自然參數(shù)（natural parameter）或者典范參數(shù)（canonical parameter）;
T(y)是充分統(tǒng)計量（sufficient statistic）（對于我們考慮的分布來說，通常T(y)=y）；
是日志分配函數(shù)(log partition function),是一個規(guī)范化常數(shù)，使得分布的和為1.
給定T,a,b，通過改變參數(shù)得到不同的分布.

下面展示伯努利（Bernoulli）和高斯分布（Gaussian distribution）都是指數(shù)分布族的特例：

伯努利分布可以寫成：

因此，令（有趣地發(fā)現(xiàn)其反函數(shù)為），并且，

高斯分布：
回憶我們對線性回歸求導時，方差對我們最終結(jié)果并沒有任何影響.為了使問題簡化，令于是有，

得：

指數(shù)分布族還包括很多其他的分布：
多項式分布（multinomial）
泊松分布（poisson）：用于計數(shù)的建模
伽馬分布（gamma），指數(shù)分布（exponential）:用于對連續(xù)非負的隨機變量進行建模
β分布，Dirichlet分布：對小數(shù)建模

3.GLMS

為了導出GLM,作三個假設(shè)：
（1）
（2）給定x，我們的目標是預測T(y)的預期值. 在大部分例子中，我們有T(y)=y，因此意味著我們通過學習得到的假設(shè)滿足（這個假設(shè)對logistic回歸和線性回歸都成立）
（3）自然參數(shù)和輸入變量是線性相關(guān)的，也就是說（如果自然參數(shù)是向量，則）

3.1普通的最小二乘法
為了說明普通的最小二乘法是GLM的特例，設(shè)定目標變量y(在GLM術(shù)語中叫響應(yīng)變量-response variable)是連續(xù)的，并且假設(shè)服從高斯分布，高斯分布寫成指數(shù)族的形式，有得到：

3.2 logistic回歸
考慮logistic,我們感興趣的是二元分類，也就是說很容易想到指數(shù)分布族的伯努利分布，有，同理得到：

正則響應(yīng)函數(shù)（canonical response function）：
正則鏈接函數(shù)（canonical link function）:

3.3 softmax 回歸
當分類問題的y取值不止兩個時，我們需要采用多項式分布（multinomial distribution）.

在推導多項式分布的GLM之前，先把多項式分布表達成指數(shù)族.

為了參數(shù)化多項式分布的k各可能結(jié)果，有人可能會用k個參數(shù)來說明每一種情況的可能性，但是這些參數(shù)是冗余的，并且并不是獨立的(由于知道任何其中的k-1個，剩下的一個就可以求出，因為滿足). 因此我們用k-1個參數(shù)對多項分布進行參數(shù)化，.
定義，如下，

介紹一個很有用的記號，，例如1{2=3}=0,1{3=5-2}=1.
因此T(y)和y的關(guān)系為.
并且有，因此：

鏈接函數(shù)為，，為了方便，定義.

可得：

因此，反代回去得到響應(yīng)函數(shù)：

從η到的映射叫做softmax函數(shù).

根據(jù)假設(shè)3，得到:

這個應(yīng)用于分類問題（當），叫做softmax回歸(softmax regression).是logistic回歸的推廣.

與最小二乘法和logistic回歸類似，

再通過梯度上升或者牛頓方法求出θ.

總結(jié)

以上是生活随笔為你收集整理的Newton Method in Maching Learning的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：为什么早睡有利于减肥
下一篇： GPU Shader 程序调试方法