最小二乘、加权最小二乘(WLS)、迭代加权最小二乘(迭代重加全最小二乘)(IRLS)
最小二乘、加權最小二乘(WLS)、迭代加權最小二乘(迭代重加全最小二乘)(IRLS)
- 最小二乘:
最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,并使得這些求得的數據與實際數據之間誤差的平方和為最小。最小二乘法還可用于曲線擬合。
X=[x11x12...x21x22...x31x32.........xmn]X=\begin{bmatrix} x_{11} & x_{12} & ... \\ x_{21} & x_{22} & ... \\ x_{31} & x_{32} & ... \\ ... & ... & x_{mn} \end{bmatrix}X=?????x11?x21?x31?...?x12?x22?x32?...?.........xmn??????? Y=[y1...ym]Y=\begin{bmatrix} y_{1}\\ ...\\ y_{m} \end{bmatrix}Y=???y1?...ym????? θ=[θ1...θn]\mathbf{\theta}=\begin{bmatrix} \theta_{1}\\ ...\\ \theta_{n} \end{bmatrix}θ=???θ1?...θn?????
XXX中每一列為特征,每一行代表一個樣本;YYY為標簽;θ\thetaθ是參數
有優化問題:f(θ)=12∣∣Xθ?Y∣∣2f(\theta)=\frac{1}{2}\left | \left | X\theta-Y \right | \right |^{2}f(θ)=21?∣∣Xθ?Y∣∣2
f(θ)=12(θTXTXθ?θTXTY?YTXθ+YTY)f(\mathbf{\theta})=\frac{1}{2}(\mathbf{\theta}^{T}X^{T}X\mathbf{\theta}-\mathbf{\theta}^{T}X^{T}Y-Y^{T}X\mathbf{\theta}+Y^{T}Y)f(θ)=21?(θTXTXθ?θTXTY?YTXθ+YTY)
對函數f(θ)f(\theta)f(θ)關于參數θ\mathbf{\theta}θ求偏導:?f(θ))?θ=XTXθ?XTY=0\frac{\partial f(\mathbf{\theta}))}{\partial \mathbf{\theta}}=X^{T}X\mathbf{\theta}-X^{T}Y=0?θ?f(θ))?=XTXθ?XTY=0
θ=(XTX)?1XTY\mathbf{\theta}=(X^{T}X)^{-1}X^{T}Yθ=(XTX)?1XTY
得到θ\mathbf{\theta}θ的解析解。
- 加權最小二乘(WLS):
加權最小二乘是在普通最小二乘的基礎上對每個樣本引入權重,調整不同樣本誤差對損失函數的貢獻率。
加權最小二乘法是對原模型進行加權,使之成為一個新的不存在異方差性的模型,然后采用普通最小二乘法估計其參數的一種數學優化技術。
異方差性是相對于同方差而言的。所謂同方差,是為了保證回歸參數估計量具有良好的統計性質,經典線性回歸模型的一個重要假定:總體回歸函數中的隨機誤差項滿足同方差性,即它們都有相同的方差。
XXX、YYY、θ\thetaθ定義如上,引入對角矩陣WWW
W=[w11...000w22...0............00...wmm]W=\begin{bmatrix} w_{11} & ... &0 & 0\\ 0 & w_{22} &... &0 \\ ...& ... & ... &... \\ 0& 0& ... & w_{mm} \end{bmatrix}W=?????w11?0...0?...w22?...0?0.........?00...wmm???????
損失函數變為:f(θ)=12∥W(Xθ?Y)∥2f(\mathbf{\theta})=\frac{1}{2}\left \| W(X\mathbf{\theta}-Y) \right \|^{2}f(θ)=21?∥W(Xθ?Y)∥2
f(θ)=12(WθTXTAθ?WθTATY?WYTAθ+WYTY)f(\mathbf{\theta})=\frac{1}{2}(W\mathbf{\theta}^{T}X^{T}A\mathbf{\theta}-W\mathbf{\theta}^{T}A^{T}Y-WY^{T}A\mathbf{\theta}+WY^{T}Y)f(θ)=21?(WθTXTAθ?WθTATY?WYTAθ+WYTY)
對函數f(θ)f(\theta)f(θ)關于參數θ\mathbf{\theta}θ求偏導:?f(θ)?θ=?XTWTWY+XTWTWXθ=0\frac{\partial f(\mathbf{\theta})}{\partial \mathbf{\theta}}=-X^{T}W^{T}WY+X^{T}W^{T}WX\mathbf{\theta}=0?θ?f(θ)?=?XTWTWY+XTWTWXθ=0
θ=(XTWTWX)?1XTWTWY\ \mathbf{\theta}=(X^{T}W^{T}WX)^{-1}X^{T}W^{T}WY?θ=(XTWTWX)?1XTWTWY
- 迭代重加權最小二乘(IRLS):
迭代重加權最小二乘(IRLS)與迭代加權最小二乘(IWLS)雖然名字不一樣,但是內容確實一樣,IRLS與IWLS指的都是同一種算法,(我在網上查了很多博客,發現許多人喜歡把IRLS叫做迭代加權最小二乘)
IRLS用來求解p范數的問題,將p范數問題轉化為2范數求解。
目標函數:f(θ)=∥AX?Y∥ppf(\mathbf{\theta})=\left \| AX-Y \right \|_{p}^{p}f(θ)=∥AX?Y∥pp?,這里的∥AX?Y∥p\left \| AX-Y \right \|_{p}∥AX?Y∥p?是一個ppp范數。計算方式如:∥X∥p=x1p+x2p+...+xmpp\left \| X \right \|_{p}=\sqrt[p]{x_{1}^{p}+x_{2}^{p}+...+x_{m}^{p}}∥X∥p?=px1p?+x2p?+...+xmp??。
所以f(θ)=argmin?θ∑i=1m(xiθ?yi)pf(\mathbf{\theta})=\underset{\mathbf{\theta}}{arg\min}\sum_{i=1}^{m}(x_{i}\mathbf{\theta}-y_{i})^{p}f(θ)=θargmin?∑i=1m?(xi?θ?yi?)p
f(θ)=argmin?θ∑i=1m(xiθ?yi)p?2(xiθ?yi)2f(\mathbf{\theta})=\underset{\mathbf{\theta}}{arg\min}\sum_{i=1}^{m}(x_{i}\mathbf{\theta}-y_{i})^{p-2}(x_{i}\mathbf{\theta}-y_{i})^{2}f(θ)=θargmin?i=1∑m?(xi?θ?yi?)p?2(xi?θ?yi?)2
f(θ)=argmin?θ∑i=1mwi2(xiθ?yi)2f(\mathbf{\theta})=\underset{\mathbf{\theta}}{arg\min}\sum_{i=1}^{m}w_{i}^{2}(x_{i}\mathbf{\theta}-y_{i})^{2}f(θ)=θargmin?i=1∑m?wi2?(xi?θ?yi?)2
所以:
wi2=∣xiθ?yi∣p?2w_{i}^{2}=|x_{i}\mathbf{\theta}-y_{i}|^{p-2}wi2?=∣xi?θ?yi?∣p?2
wi=∣xiθ?yi∣p?22w_{i}=|x_{i}\mathbf{\theta}-y_{i}|^{\frac{p-2}{2}}wi?=∣xi?θ?yi?∣2p?2?
寫成矩陣形式就是:
f(θ)=12∣∣W(Xθ?Y)∣∣2=12W2∥Xθ?Y∥2f(\mathbf{\theta})=\frac{1}{2}||W(X\mathbf{\theta}-Y)||^{2}=\frac{1}{2}W^{2}\left \| X\mathbf{\theta}-Y \right \|^{2}f(θ)=21?∣∣W(Xθ?Y)∣∣2=21?W2∥Xθ?Y∥2
θnew=(XTWnewTWnewX)?1XTWnewTWnewY\mathbf{\theta}_{new}=(X^{T}W^{T}_{new}W_{new}X)^{-1}X^{T}W^{T}_{new}W_{new}Yθnew?=(XTWnewT?Wnew?X)?1XTWnewT?Wnew?Y
Wnew=∣Xθold?Y∣p?22W_{new}=|X\mathbf{\theta}_{old}-Y|^{\frac{p-2}{2}}Wnew?=∣Xθold??Y∣2p?2?
IRLS參考文獻:Burrus C S. Iterative re-weighted least squares[J]. Comm.pure Appl.math, 2009, 44(6):1-9.
總結
以上是生活随笔為你收集整理的最小二乘、加权最小二乘(WLS)、迭代加权最小二乘(迭代重加全最小二乘)(IRLS)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 测试面试的题目大全
- 下一篇: DataSource接口,一个被大多数程