當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Machine Learning - Coursera week6 Evaluating a learning algorithm

發(fā)布時(shí)間：2023/12/18 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 Machine Learning - Coursera week6 Evaluating a learning algorithm 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Evaluating a learning algorithm

1. Design what to do next

在預(yù)測(cè)房?jī)r(jià)的學(xué)習(xí)例子，假如你已經(jīng)完成了正則化線性回歸，也就是最小化代價(jià)函數(shù)J的值。假如在你得到你的學(xué)習(xí)參數(shù)以后把它應(yīng)用到放到一組新的房屋樣本上進(jìn)行測(cè)試，發(fā)現(xiàn)在預(yù)測(cè)房?jī)r(jià)時(shí)產(chǎn)生了巨大的誤差。
要想改進(jìn)這個(gè)算法,應(yīng)該怎么辦？
其中一種辦法是使用更多的訓(xùn)練樣本,但是這個(gè)辦法不總是有用；
也許需要更多的特征，或者減少特征；
減小或增大正則化參數(shù)lambda的值；
…

機(jī)器學(xué)習(xí)診斷能夠讓你深入理解系統(tǒng)哪里工作，哪里不工作或者存在問(wèn)題。

2. Evaluating a hypothesis

如何評(píng)估假設(shè)函數(shù)？下面討論如何避免過(guò)擬合和欠擬合問(wèn)題。
如何判斷一個(gè)假設(shè)函數(shù)是過(guò)擬合的？
對(duì)于簡(jiǎn)單的例子，可以對(duì)假設(shè)函數(shù)h(x)進(jìn)行畫圖，然后觀察圖形趨勢(shì)。但對(duì)于特征變量不止一個(gè)的這種一般情況，想要通過(guò)畫出假設(shè)函數(shù)來(lái)進(jìn)行觀察就會(huì)變得很難甚至是不可能實(shí)現(xiàn)。因此，我們需要另一種方法來(lái)評(píng)估我們的假設(shè)函數(shù)。如下給出了一種評(píng)估假設(shè)函數(shù)的標(biāo)準(zhǔn)方法，假設(shè)我們有這樣一組數(shù)據(jù)組，在這里我只展示出10組訓(xùn)練樣本。為了確保我們可以評(píng)估我們的假設(shè)函數(shù)，將這些數(shù)據(jù)分成兩部分。按照7:3的比例將70%的數(shù)據(jù)作為訓(xùn)練集，30%的數(shù)據(jù)作為測(cè)試集。如果這組數(shù)據(jù)有某種規(guī)律或順序的話，那么隨機(jī)選擇70%作為訓(xùn)練集，剩下的30%作為測(cè)試集。如果數(shù)據(jù)已經(jīng)隨機(jī)分布了，可以選擇前70%和后30%.
接下來(lái)展示了一種典型的方法，你可以按照這些步驟訓(xùn)練和測(cè)試你的學(xué)習(xí)算法比如線性回歸算法。首先，你需要對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí)得到參數(shù)θ。具體來(lái)講就是最小化訓(xùn)練誤差J(θ)。這里的J(θ)是使用那70%數(shù)據(jù)。然后計(jì)算出測(cè)試誤差, Jtest來(lái)表示測(cè)試誤差.使用包含參數(shù)θ的假設(shè)函數(shù)對(duì)每一個(gè)測(cè)試樣本進(jìn)行測(cè)試,然后通過(guò)假設(shè)函數(shù)和測(cè)試樣本計(jì)算出mtest個(gè)平方誤差. 這是使用線性回歸和平方誤差標(biāo)準(zhǔn)時(shí)測(cè)試誤差的定義.

如果是考慮分類問(wèn)題,比如說(shuō)使用邏輯回歸.訓(xùn)練和測(cè)試邏輯回歸的步驟與之前所說(shuō)的非常類似. 唯一的區(qū)別是現(xiàn)在我們使用的是mtest個(gè)測(cè)試樣本.測(cè)試誤差Jtest(θ)叫誤分類率,也被稱為0/1錯(cuò)分率. 當(dāng)你的假設(shè)函數(shù)h(x)的值大于等于0.5,并且y的值等于0或者當(dāng)h(x)小于0.5并且y的值等于1,這個(gè)誤差等于1.用錯(cuò)分率誤差來(lái)定義測(cè)試誤差.

3. Model selection and Train/Validation/Test sets

模型選擇問(wèn)題：
怎樣選用正確的特征來(lái)構(gòu)造學(xué)習(xí)算法？
選擇學(xué)習(xí)算法中的正則化參數(shù)λ？
…

數(shù)據(jù)集的劃分：
通常劃分為3部分，按照6：2：2分為訓(xùn)練集、驗(yàn)證集和測(cè)試集，定義訓(xùn)練誤差交叉驗(yàn)證誤差和測(cè)試誤差。

我們的做法是訓(xùn)練多個(gè)不同的模型，使用驗(yàn)證集去選擇交叉驗(yàn)證最小的模型，最后使用測(cè)試集估計(jì)模型的泛化誤差。

轉(zhuǎn)載于:https://www.cnblogs.com/siucaan/p/9623132.html

總結(jié)

以上是生活随笔為你收集整理的Machine Learning - Coursera week6 Evaluating a learning algorithm的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： PL/SQL Developer下设置“
下一篇： sql中在查询语句中加判断，控制输出的内