當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

监督学习——通用线性模型

發(fā)布時(shí)間：2024/9/16 编程问答 66 豆豆

生活随笔收集整理的這篇文章主要介紹了监督学习——通用线性模型小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、何謂監(jiān)督學(xué)習(xí)

要給出監(jiān)督學(xué)習(xí)準(zhǔn)確的定義并不容易，因?yàn)槊勘緟⒖假Y料中都給出了不同的解釋，雖然核心的思想是相同的，但是再寫(xiě)博客的時(shí)候，總得選擇自己滿意的定義。在監(jiān)督學(xué)習(xí)這個(gè)概念上，我選擇以李航老師的統(tǒng)計(jì)學(xué)習(xí)方法中的定義作為標(biāo)準(zhǔn)，監(jiān)督學(xué)習(xí)(supervisedlearning)的任務(wù)是一個(gè)學(xué)習(xí)模型，使模型能夠?qū)θ我饨o定的輸入，對(duì)其相應(yīng)的輸出做出一個(gè)好的預(yù)測(cè)（注意：這里的輸入何輸出，是指某個(gè)系統(tǒng)的輸入、輸出，與學(xué)習(xí)的輸入、輸出不同）。

1 通用線性模型

首先我們要介紹的是一組用于回歸的方法，“回歸”一詞源于最佳擬合，表示要找到最佳擬合參數(shù)集。在回歸方法中，目標(biāo)值被估計(jì)為輸入變量的線性組合。在數(shù)學(xué)概念中，被稱為估計(jì)值（predicted value）。線性的回歸方程：

稱為回歸系數(shù)，稱為截距。

1.1 普通最小二乘

線性回歸（LinearRegression）模型的目標(biāo)是擬合一個(gè)系數(shù)為的線性模型，使得觀測(cè)變量的值與目標(biāo)值之間的殘差盡可能小。在數(shù)學(xué)中，它主要解決以下形式的問(wèn)題：

線性回歸把數(shù)組X，y的你和系數(shù)存儲(chǔ)在成員變量coef_中：

[python]?view plaincopy

>>>?from?sklearn?import?linear_model??

>>>?clf?=?linear_model.LinearRegression()??

>>>?clf.fit?([[0,?0],?[1,?1],?[2,?2]],?[0,?1,?2])??

LinearRegression(copy_X=True,?fit_intercept=True,?n_jobs=1,?normalize=False)??

>>>?clf.coef_??

array([?0.5,??0.5])??

然而，最小普通二乘系數(shù)的估計(jì)和模型的獨(dú)立性相關(guān)，輸入矩陣X的列有近似的線性關(guān)系時(shí)，最小普通二乘對(duì)觀察到的數(shù)據(jù)的隨錯(cuò)誤估計(jì)非常敏感，這種情況下會(huì)產(chǎn)生較大的方差。

例子：

Linear Regression Example

下面的例子僅僅使用了diabetes數(shù)據(jù)集中的第一特征，目的只是為了表明線性回歸技術(shù)的二維的擬合圖，從圖中可以看出線性回歸盡可能使數(shù)據(jù)集中觀察到數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)之間的殘差的平方最小。

回歸系數(shù)、殘差平方、 Variance score的計(jì)算如下：

[plain]?view plaincopy

輸出：??

Coefficients:??

?[?938.23786125]??

Residual?sum?of?squares:?2548.07??

Variance?score:?0.47??

[python]?view plaincopy

print(__doc__)??

#?Code?source:?Jaques?Grobler??

#?License:?BSD?3?clause??

import?matplotlib.pyplot?as?plt??

import?numpy?as?np??

from?sklearn?import?datasets,?linear_model??

#?Load?the?diabetes?dataset??

diabetes?=?datasets.load_diabetes()??

#?Use?only?one?feature??

diabetes_X?=?diabetes.data[:,?np.newaxis]??

diabetes_X_temp?=?diabetes_X[:,?:,?2]??

#?Split?the?data?into?training/testing?sets??

diabetes_X_train?=?diabetes_X_temp[:-20]??

diabetes_X_test?=?diabetes_X_temp[-20:]??

#?Split?the?targets?into?training/testing?sets??

diabetes_y_train?=?diabetes.target[:-20]??

diabetes_y_test?=?diabetes.target[-20:]??

#?Create?linear?regression?object??

regr?=?linear_model.LinearRegression()??

#?Train?the?model?using?the?training?sets??

regr.fit(diabetes_X_train,?diabetes_y_train)??

#?The?coefficients??

print('Coefficients:?\n',?regr.coef_)??

#?The?mean?square?error??

print("Residual?sum?of?squares:?%.2f"??

??????%?np.mean((regr.predict(diabetes_X_test)?-?diabetes_y_test)?**?2))??

#?Explained?variance?score:?1?is?perfect?prediction??

print('Variance?score:?%.2f'?%?regr.score(diabetes_X_test,?diabetes_y_test))??

#?Plot?outputs??

plt.scatter(diabetes_X_test,?diabetes_y_test,??color='black')??

plt.plot(diabetes_X_test,?regr.predict(diabetes_X_test),?color='blue',??

?????????linewidth=3)??

plt.xticks(())??

plt.yticks(())??

plt.show()??

如果X是一個(gè)大小為n行p列的矩陣，假設(shè)n>=p，則線性回歸的普通最小二乘的算法復(fù)雜度為。

1.2 嶺回歸（Ridge regression）

嶺回歸通過(guò)對(duì)回歸系數(shù)增加一個(gè)懲罰因子解決了如下形式的普通最小二乘問(wèn)題，嶺回歸系數(shù)使得殘差平方和最小：

是一個(gè)控制收縮率大小的參數(shù)：越大，收縮率就越大，因此，回歸線數(shù)的共線性就越健壯，圖1給出了和權(quán)重weights之間的關(guān)系。

同其他線性模型一樣，嶺回歸把數(shù)組X，y的你和系數(shù)存儲(chǔ)在成員變量coef_中：

[python]?view plaincopy

>>>?from?sklearn?import?linear_model??

>>>?clf?=?linear_model.Ridge?(alpha?=?.5)??

>>>?clf.fit?([[0,?0],?[0,?0],?[1,?1]],?[0,?.1,?1])???

Ridge(alpha=0.5,?copy_X=True,?fit_intercept=True,?max_iter=None,??

??????normalize=False,?solver='auto',?tol=0.001)??

>>>?clf.coef_??

array([?0.34545455,??0.34545455])??

>>>?clf.intercept_???

0.13636...??

Plot Ridge coefficients as a function of the regularization
Classification of text documents using sparse features

嶺回歸的復(fù)雜度與線性回歸復(fù)雜度一樣。

1.2.1 設(shè)置正則化的參數(shù)：廣義交叉驗(yàn)證

RidgeCV?的嶺回歸中實(shí)現(xiàn)了參數(shù)alpha的交叉驗(yàn)證。RidgeCV與GridSearchCV的實(shí)現(xiàn)原理一樣，只是RidgeCV用的方法是廣義交叉驗(yàn)證（GCV），而GridSearchCV則用的是一對(duì)一交叉驗(yàn)證（leave-one-out cross-validation）。

1.3 Lasso

Lasso是估計(jì)稀疏系數(shù)的線性模型。Lasso總是傾向于解決參數(shù)較少的問(wèn)題，并可以有效的減少解決方案依賴的變量參數(shù)。為此，Lasso及其變形是壓縮感知領(lǐng)域的基礎(chǔ)，在特定的情況下，Lasso可以恢復(fù)非零權(quán)重的準(zhǔn)確集合。 Lasso是由正則化參數(shù)組成的線性模型，目標(biāo)函數(shù)為：

為常數(shù)，范數(shù)為參數(shù)向量的主題。
?Lasso使用梯度下降法擬合系數(shù)，另一種實(shí)現(xiàn)方法參考?Least Angle Regression?。 >>> from sklearn import linear_model >>> reg = linear_model.Lasso(alpha = 0.1) >>> reg.fit([[0, 0], [1, 1]], [0, 1]) Lasso(alpha=0.1, copy_X=True, fit_intercept=True, max_iter=1000, normalize=False, positive=False, precompute=False, random_state=None, selection='cyclic', tol=0.0001, warm_start=False) >>> reg.predict([[1, 1]]) array([ 0.8])

例子:

Lasso and Elastic Net for Sparse Signals
Compressive sensing: tomography reconstruction with L1 prior (Lasso)

注意?使用Lasso進(jìn)行特征選擇 由于Lasso能夠處理稀疏的線性模型，因此Lasso可以用做特征選擇，詳細(xì)請(qǐng)參見(jiàn)?L1-based feature selection。

總結(jié)

以上是生活随笔為你收集整理的监督学习——通用线性模型的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

监督学习——通用线性模型

一、何謂監(jiān)督學(xué)習(xí)

1 通用線性模型

1.1 普通最小二乘

1.2 嶺回歸（Ridge regression）

1.2.1 設(shè)置正則化的參數(shù)：廣義交叉驗(yàn)證

1.3 Lasso

總結(jié)

一、何謂監(jiān)督學(xué)習(xí)