當(dāng)前位置：首頁 >

机器学习笔记(一) : 线性建模——最小二乘法

發(fā)布時間：2025/3/15 34 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习笔记(一) : 线性建模——最小二乘法小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

討論這個方法之前，先說些題外話。首先，我感覺機器學(xué)習(xí)是一門值得我們?nèi)チ私夂蛯W(xué)習(xí)的一門技術(shù)，它不僅僅應(yīng)用于我們的生活，而且不斷地在改變著我們的方方面面。雖然很早就已經(jīng)接觸它，并開始學(xué)習(xí)，但是總體感覺是學(xué)習(xí)的比較混亂，僅以從今天開始的一系列文章作為重新總結(jié)和學(xué)習(xí)機器學(xué)習(xí)的一個新的歷程。其次，學(xué)習(xí)機器學(xué)習(xí)，要有耐心，要執(zhí)著，要不斷總結(jié)和實現(xiàn)。最后，也是最重要的，要明白你的初衷是什么，也就是為什么要學(xué)習(xí)它。如果沒有搞清楚為什么，那還是先弄清楚吧。好了，廢話不多說了，開始進入正題。

一、引言
機器學(xué)習(xí)中的一個大類的問題就是分類問題。分類在我們的生活中也是很常見的，比如說，你剛進入大學(xué)，要分清哪些同學(xué)喜歡玩游戲，哪些喜歡學(xué)習(xí)，這樣，你想玩游戲的時候可以找愛玩游戲的同學(xué)一起，你學(xué)習(xí)遇到難題可以找喜歡學(xué)習(xí)的同學(xué)請教。當(dāng)然，你的好友可以同時做到以上兩點那是最好不過的了。
還要提一下分類和回歸的區(qū)別，當(dāng)我們要解決的問題是預(yù)測的離散值的時候，也就是上面提到的例子，分清哪些人喜歡玩游戲，哪些人喜歡學(xué)習(xí)，這就是一個分類問題。當(dāng)要預(yù)測的值是一個連續(xù)值的話，那這就是一個回歸問題。比如，我們可能在剛上大學(xué)的時候，不了解同學(xué)們平時喜歡打游戲或者喜歡學(xué)習(xí)，但是我們知道他們一系列的其他信息：A同學(xué)周一到周五喜歡去圖書館、自修室，但是周末就和寢室的同學(xué)打游戲，甚至玩通宵，當(dāng)然還有其他信息。那么，我們的問題是A同學(xué)喜歡學(xué)習(xí)的可能性有多大，這個問題的答案是[0,1]上的任意一個實數(shù)（這取決于你的預(yù)測模型），你可能根據(jù)你的系統(tǒng)推測出A喜歡學(xué)習(xí)的概率是0.51。

二、問題的提出
我們考慮簡單的單一變量的線性回歸。我這里為了簡便就舉《機器學(xué)習(xí)基礎(chǔ)教程》上的例子。男子100m比賽贏得金牌不同舉辦年份所需的時間。如圖1 所示：
通過上圖，我們至少可以看到年份和獲勝時間存在一個關(guān)系。我們要預(yù)測2016年男子100米金牌所需的時間。

三、模型假設(shè)
y表示所需時間， x表示年份，則有如下假設(shè)。

y=ax+b(1)
我們現(xiàn)在知道2016年之前每屆奧運會的男子100米金牌所需的時間，通過圖一我們看到數(shù)據(jù)點的分布呈現(xiàn)一種趨勢關(guān)系，假設(shè)它們分布在公式1所示的直線周圍，我們的目標(biāo)是找到一條直線，來擬合我們的觀測數(shù)據(jù)，進而用我們找到的這條最佳的線預(yù)測2016年的男子100m金牌所需時間。那么，什么樣的直線最好呢？我們?nèi)绾吻蠊?中的

b 這兩個參數(shù)呢？

假定我們的模型已經(jīng)選擇好了，那么衡量這個模型的一個常用方式就是用平方損失函數(shù)：

L(t,f(x;a,b))=(t?f(x;a,b))2(2)
上述公式（2）最小，我們就說模型對我們現(xiàn)有的觀測數(shù)據(jù)來說是最好的，我們暫且拋開數(shù)據(jù)過擬合的問題。那么問題轉(zhuǎn)化為求

L(t,f(x;a,b))取得最小值時候的

a,b.令

n代表歷史數(shù)據(jù)的數(shù)目，則我們的損失函數(shù)可以寫為：

L=∑in(yi?(axi+b))2(3)

四、推導(dǎo)過程
用公式（3）分別對a,b求偏導(dǎo)數(shù)，然后令其分別等于0，這就可以求得a,b. 這里用到了函數(shù)極值，可以參考高等數(shù)學(xué)。

?L?a=∑in2(yi?(axi+b))(?xi)=?2∑in(yixi?ax2i?bxi)=0(4)?L?b=∑in2(yi?(axi+b))(?1)=?2∑in(yi?axi?b)=0(5)
利用公式4,5求解得：

a=∑nixi∑niyi?n∑niyixi(∑nixi)2?n∑nix2i

b=∑nixi∑niyixi?∑nix2i∑niyi(∑nixi)2?n∑nix2i
把

a,b帶入公式1，然后令

x=2016就可以求出所需時間，擬合直線的效果如圖2所示：

這樣，我們就可以進行預(yù)測了。當(dāng)然，這里只是一個簡單的事例，我們并沒有考慮其他因素。最小二乘法是介紹完了。

五、總結(jié)
本文介紹了最小二乘法擬合數(shù)據(jù)的過程，最小二乘法是最優(yōu)化方法中的一個，要了解更多優(yōu)化方法，可以看看《最優(yōu)化導(dǎo)論》。本文的事例只考慮了一個變量：年份，如果有多個自變量，它們在空間中也滿足線性分布，能不能用最小二乘法去擬合數(shù)據(jù)呢？這個問題，我將在下一篇文章中進行介紹。

總結(jié)

以上是生活随笔為你收集整理的机器学习笔记(一) : 线性建模——最小二乘法的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Java方法重载与方法重写
下一篇： 2022年快手磁力金牛服饰行业营销洞察报

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

机器学习笔记(一) : 线性建模——最小二乘法

總結(jié)