【机器学习】线性回归之概率解释及局部加权线性回归
Probabilistic interpretation
我們應該想這樣一個問題:當我們討論回歸問題時,我們為什么要最小化平方損失函數?在CS229的課程中,吳恩達教授給我們做了詳細的概率解釋。現總結如下:?
對單個樣本來說:?
其中? 為預測誤差,我們假定樣本的誤差屬于獨立同分布。?
根據中心極限定理:多個隨機變量的和符合正態分布;因為誤差的隨機性,?符合均值為0,方差為? 的正態分布,即假定??,因此:?
上述第2個等式表明,在給定?, ?的條件下,?符合正態分布,且均值為?,方差為?,即?
注意,這里不等同于,前者默認為是一個固定的值,一個本身就存在的最佳參數矩陣;而后者認為是一個變量(統計學中frequentist和Bayesian的差別)。
此時,我們已知了y的概率分布,因為? 是獨立同分布的,所以每個樣本的輸出y也是獨立同分布的。那么就可以用極大似然估計(MLE)來估計。似然函數為?
似然函數取對數可得
可以看出,MLE的最終結果就是要最小化
這恰好就是我們的cost function。
對對數似然函數求導可得:
易得:(具體的推導可參見Normal Equation)
這不就是我們用Normal Equation得出的結論嗎!(Normal Equation)
得到的估計之后,我們再來估計一下,先暫記,則:
解得:
至此,我們已經估計得到了和,所以我們可以得到之前的概率分布模型的確切表達式。
有了這個模型,對于輸入就可以很容易的得到對于的,及其概率,以及置信區間等。
?
?
關于概率解釋還有幾點可以寫。
下次有時間補上
?
局部加權線性回歸(Locally Weighted Linear Regression,LWLR)
LWLR算法是一個non-parametric(非參數)學習算法,而線性回歸則是一個parametric(參數)學習算法。
所謂參數學習算法它有固定的明確的參數,參數一旦確定,就不會改變了,我們不需要在保留訓練集中的訓練樣本。
而非參數學習算法,每進行一次預測,就需要重新學習一組,是變化的,所以需要一直保留訓練樣本。也就是說,當訓練集的容量較大時,非參數學習算法需要占用更多的存儲空間,計算速度也較慢。
先介紹這個概念是因為LWLR由于是非參數的學習算法,所以訓練的方式與傳統的線性回歸有點區別。LWLR并不進行預先訓練,而是當每次需要預測新樣本點的時候才開始訓練整體樣本。LWLR的核心思想就是,與新樣本點相關度高的(距離近的)樣本起到的權重大,相關度低的起到的作用很小。
首先我們來看一個線性回歸的問題,在下面的例子中,我們選取不同維度的特征來對我們的數據進行擬合。
對于上面三個圖像做如下解釋:
選取一個特征,來擬合數據,可以看出來擬合情況并不是很好,有些數據誤差還是比較大。
針對第一個,我們增加了額外的特征,,這時我們可以看出情況就好了很多。
這個時候可能有疑問,是不是特征選取的越多越好,維度越高越好呢?所以針對這個疑問,如最右邊圖,我們用五階多項式使得數據點都在同一條曲線上,為。此時它對于訓練集來說做到了很好的擬合效果,但是,我們不認為它是一個好的假設,因為它不能夠做到更好的預測(過擬合)。
針對上面的分析,我們認為第二個是一個很好的假設,而第一個圖我們稱之為欠擬合(underfitting),而最右邊的情況我們稱之為過擬合(overfitting)
所以我們知道特征的選擇對于學習算法的性能來說非常重要,所以現在我們要引入局部加權線性回歸,它使得特征的選擇對于算法來說沒那么重要,也就是更隨性了。
?
在我們原始的線性回歸中,對于輸入變量,我們要預測,通常要做:
?
而對于局部加權線性回歸來說,我們要做:
為權值,從上面我們可以看出,如果很大,那么該樣本點所產生的平方誤差的影響就很大,所以如果很小,則它所產生的影響也就很小。
通常我們選擇的形式如下所示:
上式中參數為新預測的樣本特征數據,它是一個向量,參數控制了權值變化的速率,和的圖像如下
可以看到(感覺這幅圖并不太好,雖然大致的意思(分布上)表達出來了)
(1)如果,則。
(2)如果,則。
也即,離很近的樣本,權值接近于1,而對于離很遠的樣本,此時權值接近于0,這樣就是在局部構成線性回歸,它依賴的也只是周邊的點。
圖中紅色直線使用線性回歸做的結果,黑色直線使用LWR做的結果,可以看到局部加權回歸的效果較好。
參數τ控制權重函數的寬度,τ越大,權重函數越寬,也就是下降越慢,τ越小,則對于距離越敏感:
總結
這個模型相對比較簡單,雖然可以在一定程度上解決欠擬合的問題,但有相當明顯的缺陷。?
參考文章:
線性回歸及其概率解釋
線性回歸概率解釋(Linear Regression)
總結
以上是生活随笔為你收集整理的【机器学习】线性回归之概率解释及局部加权线性回归的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习】线性回归之Normal Eq
- 下一篇: 【数学基础】概率论——p(x|\thet