机器学习——统计学习方法——第1章 统计学习及监督学习概论
監督學習是從標注數據中學習模型的機器學習問題,是統計學習的重要組成部分。
1.1 統計學習
統計學習的特點
統計學習是關于計算機基于數據構建概率統計模型并運用模型對數據進行預測與分析的一門學科。
特點
“學習”定義: 一個系統能夠通過執行某個過程改進它的性能。
統計學習就是計算機系統通過運行數據及統計方法提高系統性能的機器學習
統計學習的對象
統計學習的對象是數據。它從數據出發,提取數據的特征,抽象出數據的模型,發現數據中的知識,又回到對數據的分析與預測中去。
統計學習的前提:統計學習關于數據的基本假設是同類數據具有一定的統計規律性。
統計學習的目的
對數據的預測與分析是通過構建概率統計模型實現的。
統計學習總的目標:考慮學習什么樣的模型和如何學習模型,以使模型能對數據進行準確的預測與分析,同時也要考慮盡可能地提高學習效率。
統計學習的方法
統計學習的方法是基于數據構建概率統計模型從而對數據進行預測和分析。
統計學習方法概括:從給定的、有限的、用于學習的訓練數據集合出發,假設數據是獨立同分布產生的;并且假設要學習的模型屬于某個函數的集合,稱為假設空間;應用某個評價準則,從假設空間中選取一個最優模型,使它對已知的訓練數據及未知的測試數據在給定的評價準則下有最優的預測。
最優模型的選取由算法實現,包括模型的假設空間、模型選擇的準則以及模型學習的算法,簡稱為三要素:模型、策略和算法。
實現統計學習方法的步驟:
(1)得到一個有限的訓練數據的集合;
(2)確定包含所有可能的模型的假設空間,即學習模型的集合;
(3)確定模型選擇的準則,即學習的策略;
(4)實現求解最優模型的算法,即學習的算法;
(5)通過學習方法選擇最優模型;
(6)利用學習的最優模型對新數據及進行預測或分析。
1.2 統計學習的分類
基本分類
統計學習包括監督學習、無監督學習、強化學習、半監督學習、主動學習等。
監督學習
監督學習是指從標注數據中學習預測模型的機器學習問題。
實質是學習輸入到輸出的映射的統計規律。
(1)輸入空間、特征空間與輸出空間
輸入空間:輸入所有可能取值的集合
輸出空間:輸出所有可能取值的集合
特征空間:所有特征向量存在的空間稱為特征空間。特征向量是每個具體輸入(實例)的表示。特征空間的每一個維度對應一個特征。
輸入輸出變量用大寫字母表示,輸入輸出變量的取值用小寫字母表示.
輸入實例x的特征向量記作:
監督學習從訓練數據集合中學習模型,對測試數據進行預測。訓練集通常表示為
輸入與輸出對又稱為樣本或樣本點。
預測任務:
回歸問題:輸入輸出變量均為連續變量的預測問題;
分類問題:輸出變量為有限個離散變量的預測問題;
標注問題:輸入變量與輸出變量均為變量序列的預測問題。
(2)聯合概率分布
監督學習假設輸入與輸出隨機變量X和Y遵循聯合概率分布P(X,Y)。
訓練數據與測試數據被看作是依聯合概率分布獨立同分布產生的。
監督學習關于數據的基本假設:X和Y具有聯合概率分布
(3)假設空間
監督學習的目的在于學習一個從輸入到輸出的映射,由模型表示。
模型屬于由輸入空間到輸出空間的映射的集合,即假設空間。
假設空間的確定意味著學習范圍的確定。
(4)問題的形式化
監督學習利用訓練數據集學習一個模型,再用模型對測試樣本集進行預測。
監督學習分為學習和預測兩個過程。
無監督學習
無監督學習是指從無標注數據中學習預測模型的機器學習問題,本質是學習數據中的統計規律或潛在結構。
強化學習
強化學習是指智能系統在與環境的連續互動中學習最優行為策略的機器學習問題,本質是學習最優的序貫決策。
智能系統的目標不是短期獎勵的最大化,而是長期累積獎勵的最大化 。
強化學習過程中,系統不斷地試錯,以達到學習最優策略的目的。
半監督學習與主動學習
半監督學習是指利用標注數據和未標注數據學習預測模型的機器學習問題。
主動學習是指機器不斷主動給出實例讓教師進行標注,然后利用標注數據學習預測模型的機器學習問題。
兩者更接近于監督學習。
按模型分類
1.概率模型與非概率模型(確定性模型)
2.線性模型與非線性模型
3.參數化模型與非參數化模型
按算法分類
在線學習:每次接受一個樣本,進行預測,之后學習模型,并不斷重復。
批量學習:一次接受所有數據,學習模型,之后進行預測。
按技巧分類
1.貝葉斯學習
在概率模型的學習和推理中,利用貝葉斯定理,計算在給定數據條件下模型的條件概率(后驗概率),并應用這個原理進行模型的估計,以及對數據的預測。
2.核方法
使用核函數表示和學習非線性模型的一種機器學習方法,可以用于監督學習和無監督學習。
1.3 統計學習方法三要素
方法=模型+策略+算法
模型
首先考慮的問題是學習什么樣的模型。 在監督學習過程中,模型就是所要學習的條件概率分布或決策函數。模型的假設空間包含所有可能的條件概率分布或決策函數為。
策略
接著需要考慮按照什么樣的準則學習或選擇最優的模型,目標在于從假設空間中選取最優的模型。
損失函數度量模型一次預測的好壞,風險函數度量平均意義下模型的好壞。
損失函數和風險函數
當樣本容量N趨于無窮的時,經驗風險趨于期望風險,自然有想法用經驗風險估計期望風險。這涉及到監督學習的兩個基本策略:經驗風險最小化和結構風險最小化。
經驗風險最小化與結構風險最小化
經驗風險最小化:
經驗風險最小的模型就是最優的模型:
其中f為假設空間
問題:當樣本容量很小時,學習的效果未必很好,會產生“過擬合”現象。
結構風險最小化:
為了防止“過擬合” 而提出的策略,等價于正則化。結構風險在經驗風險上加上表示模型復雜度的正則化項(罰項)。結構風險定義:
其中J(f)為模型復雜度,模型越復雜它就越大。
結構風險最小的模型就是最優的模型:
算法
算法是指學習模型中的具體計算方法。
統計學習基于訓練數據集,根據學習策略,從假設空間中選擇最優模型,最后需要考慮用什么樣的計算方法求解最優模型,統計學習問題歸結為最優化問題。
1.4 模型評估與模型選擇
1.4.1訓練誤差與測試誤差
訓練誤差(訓練數據集平均損失):
測試誤差(測試數據集平均損失):
例:當損失函數是0-1損失時,測試誤差就成了常見的測試數據集的誤差率:
相應地,常見的測試數據集的準確率為:
顯然:
1.4.2過擬合與模型選擇
過擬合:一味追求提高對訓練數據的預側能力
過擬合是指學習時選擇的模型所包含的參數過多,以至出現對己知數據預測得很好,但對未知數據預測得很差的現象。
描述了訓練誤差和測試誤差與模型的復雜度之間的關系。當模型的復雜度增大時,訓練誤差會逐漸減小井趨向于 0; 而測試誤差會先減小,達到最小值后又增大。當選擇的模型復雜度過大時,過擬合現象就會發生。
1.5 正則化與交叉驗證
1.5.1正則化
模型選擇的典型方法是正則化,正則化是結構風險最小化策略的實現,是在經驗風險的基礎上加一個正則化項(一般為模型復雜度的單調遞增函數)或罰項。
奧卡姆剃刀原理應用于模型選擇時變為以下想法:在所有可能選擇的模型中,能夠很好地解釋己知數據并且十分簡單才是最好的模型,也就是應該選擇的模型。
1.5.2交叉驗證
另一種常用的模型選擇方法是交叉驗證。
如果訓練數據樣本充足的情況下,進行模型選擇的簡單方法是隨機的將這些數據分成三部分:訓練集、驗證集和測試集。
交叉驗證基本想法
重復地使用數據,把給定的數據進行切分,將切分的數據集組合為訓練集與測試集,在此基礎上反復地進行訓練、測試以及模型選擇.
簡單交叉驗證
首先隨機地將己給數據分為兩部分,一部分作為訓練集,另一部分作為測試集;然后用訓練集在各種條件下訓練模型,從而得到不同的模型;在測試集上評價各個模型的測試誤差,選出測試誤差最小的模型。
S折交叉臉證(應用最多)
首先隨機地將已給數據切分為S個互不相交、大小相同的子集;然后利用S-1個子集的數據訓練模型,利用余下的子集測試模型;將這一過程對可能的S種選擇重復進行;最后選出S次評測中平均側試誤差最小的模型.
留一文叉驗證
S折交叉驗證的特殊情形是S=N(數據缺乏時用),N是給定數據集的容量
1.6 泛化能力
泛化誤差
學習方法的泛化能力是指由該方法學習到的模型對未知數據的預測能力。
事實上泛化誤差就是所學習到的模型的期望風險。
泛化誤差:對學習到的f(X)模型對未知數據預測的誤差。
泛化誤差上界
學習方法的泛化能力分析是通過研究泛化誤差概率上界進行的,簡稱泛化誤差上界。
泛化誤差上界性質:
1.7 生成模型與判別模型
監督學習的任務就是學習一個模型,應用這一模型,對給定的輸入預測相應的輸出。
這個模型的一般形式為決策函數:Y=f(X)或者條件概率分布:P(Y|X)
監督學習方法又可以分為生成方法和判別方法。所學到模型稱生成模型和判別模型。
生成方法(模型表示了給定輸入X產生輸出Y的生成關系)由數據學習聯合概率分布 P(X,Y) 然后求出條件概率分布 P(Y|X)作為預測的模型,即生成模型:
判別方法由數據直接學習決策函數 f(X) 或者條件概率分布 P(Y|X) 作為預測的
模型,即判別模型。判別方法關心的是對給定的輸入X應該預測什么樣的輸出Y。
生成方法的特點:
判別方法的特點:
1.8 監督學習應用
監督學習的應用主要在三個方面:分類問題、標注問題和回歸問題。
1.8.1分類問題
在監督學習中,當輸出變量Y取有限個離散值時,預測問題便成為分類問題,這時,輸入變量X可以是離散的,也可以是連續的。
監督學習從數據中學習一個分類模型或分類決策函數,稱為分類器。分類器對新的輸入進行輸出的預測,稱為分類。
分類準確率(評價分類器性能的指標) 定義:對于給定的測試數據集,分類器正確分類的樣本數與總樣本數之比,也就是損失函數是 0-1 損失時測試數據集上的準確率。
例:二類分類(類別為兩個)常用評價指標精確度與召回率
精確率定義為:P=TP/(TP+FP)
召回率定義為:R=TP/(TP+FN)
此外,還有 F1 值,是精確率和召回率的調和均值,即:
1.8.2標注問題
標注問題是分類問題的一個推廣,標注問題又是更復雜的結構預測問題的簡單形式。
標注問題的輸入是一個觀測序列,輸出是一個標記序列或狀態序列。
標注問題的目標在于學習一個模型,使它能夠對觀測序列給出標記序列作為預測。
評價標注模型的指標與評價分類模型的指標一樣。
1.8.3回歸問題
回歸用于預測輸入變量(自變量)和輸出變量(因變量)之間的關系,特別是當輸入變量的值發生變化時,輸出變量的值隨之發生的變化。
回歸模型正是表示從輸入變量到輸出變量之間映射的函數。
回歸問題的學習等價于函數擬合:選擇一條函數曲線使其很好地擬合己知數據且很好地預測未知數據(參考1.4)。
按照輸入變量的個數,分為一元回歸和多元回歸
按照輸入變量和輸出變量之間關系的類型即模型的類型,分為線性回歸和非線性回歸
總結
以上是生活随笔為你收集整理的机器学习——统计学习方法——第1章 统计学习及监督学习概论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C# 中的eval ()函数
- 下一篇: 判断事件源的另一方法