PRML笔记 第一章 Introduction
模式識(shí)別關(guān)注在數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)信息并采取行動(dòng),例如數(shù)據(jù)分類。
例子:手寫識(shí)別。使用規(guī)則等方法將導(dǎo)致復(fù)雜的規(guī)則和例外情況。使用機(jī)器學(xué)習(xí)方法,利用訓(xùn)練集自動(dòng)調(diào)整參數(shù)。目標(biāo)模式是已知的數(shù)字0-9,成為目標(biāo)向量t。模式識(shí)別的推廣能力是一個(gè)中心目標(biāo)!
預(yù)處理:又稱為特征提取。輸入數(shù)據(jù)大多數(shù)需要預(yù)處理,是模式識(shí)別更加容易!同時(shí),預(yù)處理可以提高效率,但應(yīng)該注意信息丟失,準(zhǔn)確度下降。
分類:
有目標(biāo)向量:監(jiān)督學(xué)習(xí)(離散與連續(xù):分類與回歸)。
無目標(biāo)向量:無監(jiān)督學(xué)習(xí):聚類,密度估計(jì),數(shù)據(jù)可視化等
reinfocement learning:強(qiáng)化學(xué)習(xí):找到合適的行為,并給出評(píng)價(jià)。信用分配問題:每個(gè)行為對(duì)最終結(jié)果(評(píng)價(jià))的影響
細(xì)節(jié)本書不討論。
1.1 例子:多項(xiàng)式曲線擬合
sin函數(shù)加上高斯分布噪聲生成訓(xùn)練數(shù)據(jù),在不知道模型的情況下預(yù)測(cè)新的輸入的輸出值。
有限訓(xùn)練集加上噪聲使得問題本質(zhì)上困難。概率模型提供了噪聲不確定性的量化,決策論利用概率量化和決策規(guī)則做出預(yù)測(cè)。
多項(xiàng)式模型雖然是輸入x的非線性函數(shù),但是是參數(shù)w的線性函數(shù),稱為線性模型。將在第3,4章討論。
調(diào)整w,使誤差函數(shù)最小化,得到擬合函數(shù)結(jié)果。
誤差函數(shù)是衡量模型輸出與實(shí)際輸出的偏差,常使用誤差平方和。誤差函數(shù)的選擇有概率意義。
誤差函數(shù)相對(duì)于w是二次函數(shù),所以導(dǎo)數(shù)是一次的,最優(yōu)化問題有唯一解(另導(dǎo)數(shù)=0,等價(jià)于解一個(gè)線性方程組)
選擇最高項(xiàng)次數(shù)M稱為模型選擇問題,M可以代表模型復(fù)雜度,不合適的M會(huì)導(dǎo)致欠擬合和過擬合。
sin的展開式是無窮次的,但是M太大,test error反而激增。觀察w發(fā)現(xiàn)高次項(xiàng)w非常大,原因是參數(shù)越來越向著隨機(jī)噪聲調(diào)和(數(shù)據(jù)集太小)!
有些啟發(fā)式的方法提出數(shù)據(jù)量應(yīng)該為參數(shù)量的幾倍,但第三章說明參數(shù)量不是模型復(fù)雜度衡量的必要因素。
貝葉斯方法可以自動(dòng)調(diào)整有效的參數(shù)個(gè)數(shù)。
使用正規(guī)化技術(shù)可以解決過擬合問題。對(duì)過大的參數(shù)進(jìn)行懲罰!二次正規(guī)化項(xiàng)又成為“嶺回歸”,在神經(jīng)網(wǎng)絡(luò)的上下文又稱為“權(quán)值衰減”。
正規(guī)化參數(shù)的選擇也可以通過實(shí)驗(yàn)的方式衡量訓(xùn)練誤差和驗(yàn)證誤差來選擇。
?
轉(zhuǎn)載于:https://www.cnblogs.com/cjrzh/p/4550319.html
總結(jié)
以上是生活随笔為你收集整理的PRML笔记 第一章 Introduction的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021牛客暑期多校训练营9
- 下一篇: 【统计学】三大相关系数之皮尔逊相关系数(