PRML笔记 第一章 Introduction
模式識別關注在數據中自動發現信息并采取行動,例如數據分類。
例子:手寫識別。使用規則等方法將導致復雜的規則和例外情況。使用機器學習方法,利用訓練集自動調整參數。目標模式是已知的數字0-9,成為目標向量t。模式識別的推廣能力是一個中心目標!
預處理:又稱為特征提取。輸入數據大多數需要預處理,是模式識別更加容易!同時,預處理可以提高效率,但應該注意信息丟失,準確度下降。
分類:
有目標向量:監督學習(離散與連續:分類與回歸)。
無目標向量:無監督學習:聚類,密度估計,數據可視化等
reinfocement learning:強化學習:找到合適的行為,并給出評價。信用分配問題:每個行為對最終結果(評價)的影響
細節本書不討論。
1.1 例子:多項式曲線擬合
sin函數加上高斯分布噪聲生成訓練數據,在不知道模型的情況下預測新的輸入的輸出值。
有限訓練集加上噪聲使得問題本質上困難。概率模型提供了噪聲不確定性的量化,決策論利用概率量化和決策規則做出預測。
多項式模型雖然是輸入x的非線性函數,但是是參數w的線性函數,稱為線性模型。將在第3,4章討論。
調整w,使誤差函數最小化,得到擬合函數結果。
誤差函數是衡量模型輸出與實際輸出的偏差,常使用誤差平方和。誤差函數的選擇有概率意義。
誤差函數相對于w是二次函數,所以導數是一次的,最優化問題有唯一解(另導數=0,等價于解一個線性方程組)
選擇最高項次數M稱為模型選擇問題,M可以代表模型復雜度,不合適的M會導致欠擬合和過擬合。
sin的展開式是無窮次的,但是M太大,test error反而激增。觀察w發現高次項w非常大,原因是參數越來越向著隨機噪聲調和(數據集太小)!
有些啟發式的方法提出數據量應該為參數量的幾倍,但第三章說明參數量不是模型復雜度衡量的必要因素。
貝葉斯方法可以自動調整有效的參數個數。
使用正規化技術可以解決過擬合問題。對過大的參數進行懲罰!二次正規化項又成為“嶺回歸”,在神經網絡的上下文又稱為“權值衰減”。
正規化參數的選擇也可以通過實驗的方式衡量訓練誤差和驗證誤差來選擇。
?
轉載于:https://www.cnblogs.com/cjrzh/p/4550319.html
總結
以上是生活随笔為你收集整理的PRML笔记 第一章 Introduction的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021牛客暑期多校训练营9
- 下一篇: Eyjafjalla