當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

李航《统计学习方法》笔记

發布時間：2024/7/23 编程问答 73 豆豆

生活随笔收集整理的這篇文章主要介紹了李航《统计学习方法》笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

雖然書名是統計學習，但是卻是機器學習領域中和重要的一本參考書。當前的機器學習中機器指計算機，但是所運用的方法和知識是基于數據（對象）的統計和概率知識，建立一個模型，從而對未來的數據進行預測和分析（目的）。

第一段提到的模型是很重要的，事實上，模型（model）是統計學習方法的三要素之一，其他另外兩個策略strategy和算法algorithm也是圍繞模型的，簡單來說，策略決定了使用什么樣的損失函數（代價函數）評價當前模型的好壞。算法決定了具體如何對模型進行最優化求解。有人說搞深度學習就是在不斷地修改loss函數，優化算法，仔細一想其實也有點道理。。。但是里面其實還是大有文章的。下面仔細研究一下三要素。

三要素之模型

模型，也就是建模，以全書主要講的監督學習為例，就是希望通過已知的訓練數據，得到模型，這個模型能充分描述數據的規律，從而預測數據。這里暗合了一個假設：訓練數據和測試數據是獨立同分布的。這里有兩種情況：第一種認為數據的分布是基于某個分布概率隨機分布的，對應概率模型，用條件概率P(Y|X)表示，；另外一種是認為數據嚴格遵循某種函數關系，即決策函數，其對應非概率模型，用決策函數f(X)表示。

監督學習得到的模型的方法有兩大類：生成方法generative approach和判別方法discriminative approach.生成方法是先由先學習得到的聯合概率分布求解得到條件概率，典型的生成模型有樸素貝葉斯法和隱馬爾科夫模型。判別模型是由數據直接學習決策函數或者條件概率，典型的判別模型有k近鄰法、感知機、決策樹、最大熵模型、支持向量機、提升方法和條件隨機場等。在GAN網絡中有生成模型和判別模型，尋找二者的納什均衡。這里的生成模型和生成方法應該不是同一個東西。

模型的選擇可以通過正則化或者交叉驗證。正則化是下面提到的結構風險最小化的實現。交叉驗證主要是看如何分割數據集，反復進行訓練，驗證，測試。

三要素之策略

策略也就是如何選擇loss/cost 函數，相當于一個標尺，通過這個標尺，我們才能知道想要達到一個什么目標（這個目標與代價函數有關，但絕不單單是最小化代價函數那么簡單）。在這第一個需要選擇的就是代價函數的選擇，有0-1損失函數，平方損失函數，絕對損失函數，對數損失函數等。因為我們把輸入的樣本看作隨機變量，每一個通過損失函數求得一個損失值，但是它們的期望才可以代表整個模型的好壞，這就需要用到聯合分布概率。但同時聯合分布是未知的，如果已知也就不需要監督學習了。所以繼續用統計的知識，我們通過求均值，用平均損失，即經驗風險來代替期望風險。到這里離我們找到目標還差一步，我們可以直接以經驗風險最小化作為目標，極大似然估計就是這個道理，但是會造成過擬合，結果就是模型為了最大程度地適應樣本數據，最后得到了一個很復雜模型，但是只是對已有樣本擬合得好，因為無節制地遷就數據，包括一些特殊點和噪點，而沒有找到普適性的一般規律，對測試數據的預測能力不佳。于是為了，平衡擬合性和模型的復雜度，新構造了一個函數作為我們最小化的目標，這就是結構風險，在經驗風險的基礎上加一個正則化項，它與模型的復雜度成正比。貝葉斯估計中的最大后驗估計就是結果風險最小化的一個例子。

主要說一下結構風險最小化。結構風險最小化等價于正則化（規則化），因為對測試數據有良好的預測效果是不言而喻的要求，規則化還要求模型盡量簡單，權衡了經驗風險和模型復雜度。這就是參考鏈接1提到的奧卡姆剃刀原理(Occam’s razor)。到這里，監督學習變成了一個最優化問題，最小化一個目標函數，函數由兩項構成，一個是Loss函數，一個是正則項。

不同的機器學習模型的Loss函數和正則化項都不同。鏈接1主要講了正則項的選取。正則化項有兩個作用，一個是起懲罰的作用，與模型復雜度成正比；一個是利用領域的先驗知識對模型的特性有一個整體把握，控制模型特性，如使模型具有稀疏、低秩、平滑等特性。

三要素之算法

算法就沒什么好說的了，因為統計學習到最后都歸結為最優化問題，解析解不存在的情況下就用各種最優化算法尋找最優解。比如BP算法。我理解的caffe中solve.prototxt文件就是描述求解過程的。

最后提一下監督學習的應用：分類問題、標注問題、回歸問題。這三類問題是由輸入X和輸出Y的連續還是離散的狀態區分的。因為我們得到模型后最終的任務還是對數據預測。當輸出變量Y是離散的，預測問題便成為分類問題，得到的模型便可叫做分類器。這里和圖像分割一樣，有兩個重要的指標：精確率precision和召回率recall。當輸入是一個觀測序列，輸出是標記序列或者狀態序列，那么預測問題就是標注問題。狀態是有限的，但是序列經過組合就可能變成無限的了。常用的統計方法有隱馬爾科夫模型和條件隨機場。輸入與輸出變量都是連續變量的預測問題稱為回歸問題，最常用的是最小二乘法求解。

關于預測數據的能力的表示，有一個專業的詞叫泛化能力，通過泛化誤差上界來衡量。這里有一個重要的不等式，還沒有自己試著去證明。

Reference：

1.https://blog.csdn.net/zouxy09/article/details/24971995/

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的李航《统计学习方法》笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

李航《统计学习方法》笔记

總結