什么是最小二乘法
先看下百度百科的介紹:最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小。最小二乘法還可用于曲線擬合。其他一些優(yōu)化問題也可通過最小化能量或最大化熵用最小二乘法來表達(dá)。
? ?通過這段描述可以看出來,最小二乘法也是一種優(yōu)化方法,求得目標(biāo)函數(shù)的最優(yōu)值。并且也可以用于曲線擬合,來解決回歸問題。難怪《統(tǒng)計(jì)學(xué)習(xí)方法》中提到,回歸學(xué)習(xí)最常用的損失函數(shù)是平方損失函數(shù),在此情況下,回歸問題可以著名的最小二乘法來解決。看來最小二乘法果然是機(jī)器學(xué)習(xí)領(lǐng)域做有名和有效的算法之一。
我們以最簡單的一元線性模型來解釋最小二乘法。什么是一元線性模型呢??監(jiān)督學(xué)習(xí)中,如果預(yù)測的變量是離散的,我們稱其為分類(如決策樹,支持向量機(jī)等),如果預(yù)測的變量是連續(xù)的,我們稱其為回歸?;貧w分析中,如果只包括一個自變量和一個因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。對于二維空間線性是一條直線;對于三維空間線性是一個平面,對于多維空間線性是一個超平面...
? ?對于一元線性回歸模型, 假設(shè)從總體中獲取了n組觀察值(X1,Y1),(X2,Y2), …,(Xn,Yn)。對于平面中的這n個點(diǎn),可以使用無數(shù)條曲線來擬合。要求樣本回歸函數(shù)盡可能好地擬合這組值。綜合起來看,這條直線處于樣本數(shù)據(jù)的中心位置最合理。 選擇最佳擬合曲線的標(biāo)準(zhǔn)可以確定為:使總的擬合誤差(即總殘差)達(dá)到最小。有以下三個標(biāo)準(zhǔn)可以選擇:
? ? ? ? (1)用“殘差和最小”確定直線位置是一個途徑。但很快發(fā)現(xiàn)計(jì)算“殘差和”存在相互抵消的問題。
? ? ? ? (2)用“殘差絕對值和最小”確定直線位置也是一個途徑。但絕對值的計(jì)算比較麻煩。
? ? ? ? (3)最小二乘法的原則是以“殘差平方和最小”確定直線位置。用最小二乘法除了計(jì)算比較方便外,得到的估計(jì)量還具有優(yōu)良特性。這種方法對異常值非常敏感。
?最常用的是普通最小二乘法( Ordinary ?Least Square,OLS):所選擇的回歸模型應(yīng)該使所有觀察值的殘差平方和達(dá)到最小。(Q為殘差平方和)- 即采用平方損失函數(shù)。
樣本回歸模型:
? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ?其中ei為樣本(Xi,?Yi)的誤差
? ?平方損失函數(shù):
? ? ? ? ? ? ? ? ? ? ??
? ?則通過Q最小確定這條直線,即確定
,以
為變量,把它們看作是Q的函數(shù),就變成了一個求極值的問題,可以通過求導(dǎo)數(shù)得到。求Q對兩個待估參數(shù)的偏導(dǎo)數(shù):
? ? ? ? ? ? ? ? ? ?
? ??
? ? 根據(jù)數(shù)學(xué)知識我們知道,函數(shù)的極值點(diǎn)為偏導(dǎo)為0的點(diǎn)。
? ? 解得:
? ? ? ? ? ? ? ? ? ?
這就是最小二乘法的解法,就是求得平方損失函數(shù)的極值點(diǎn)。
總結(jié)
- 上一篇: filezilla显示无法连接服务器,F
- 下一篇: Cadence Orcad Captur