统计学习的分类
文章目錄
- 基本分類
- 監督學習
- 無監督學習
- 強化學習
- 半監督學習
- 主動學習
- 按模型分類
- 按算法分類
- 按技巧分類
- 貝葉斯學習(Bayesian learning)
- 核方法(kernel method)
基本分類
統計學習可以基本分類分為監督學習、無監督學習、強化學習、半監督學習、主動學習等
監督學習
-
定義
- 從標注數據中學習預測模型的機器學習問題
- 標注數據表示輸入輸出的對應關系,預測模型對給定輸入產生相應的輸出
- 本質:學習輸入到輸出的映射的統計規律
-
相關概念
- 輸入空間(input space):輸入的所有可能的取值集合
- 輸出空間(output space):輸出的所有可能的取值集合
- 實例(instance):每個具體的輸入,可由特征向量(feature vector)表示
- 特征空間(feature space):所有的特征向量存在的空間,特征空間中的每一維對應一個特征,特征空間是模型實際定義位置
- 假設空間:由輸入空間到輸出空間的映射的集合。
-
任務分類
- 回歸問題:輸入變量和輸出變量均為連續變量的預測問題
- 分類問題:輸出變量為有限個離散變量的預測問題
- 標注問題:輸入變量和輸出變量均為變量序列的預測問題
-
聯合概率分布
- 監督學習假設輸入與輸出的隨機變量X和Y遵循聯合概率分布P(X,Y)。
- P(X,Y)表示分布函數或分布密度函數,P(x,y)=P(X=x and Y=y)
- 統計學習假設數據存在一定的統計規律,X和Y具有聯合概率分布就是監督學習關于數據的基本假設。
- 對于學習系統來說,聯合概率分布是未知的
- 訓練數據和測試數據被看作是依聯合分布概率分布P(X,Y)獨立同分布產生的。
-
假設空間
- 監督學習目的是學習一個由輸入到輸出的映射,稱為模型
- 模式的集合就是假設空間(hypothesis space)
- 概率模型:條件概率分布P(Y|X), 決策函數:Y=f(X)
-
問題形式化
-
實現過程
- 學習過程:學習系統利用給定的數據集($T = { ({x_1},{y_1}),({x_2},{y_2}),…,({x_n},{y_n})} ??),通過學習(或訓練)得到一個最優模型,表示為條件概率分布??),通過學習(或訓練)得到一個最優模型,表示為條件概率分布??),通過學習(或訓練)得到一個最優模型,表示為條件概率分布{\rm{\hat P}}(Y|X)??或決策函數?? 或決策函數??或決策函數Y = \hat f(X)$?? ,描述輸入或輸出隨機變量之間的映射關系。
- 預測過程:預測系統對于給定的測試樣本中的輸入xN+1{x_{N + 1}}xN+1? ,由模型yN+1=arg?max?yP^(y∣xN+1){y_{N + 1}} = \arg \mathop {\max }\limits_y \hat P(y|{x_{N + 1}})yN+1?=argymax?P^(y∣xN+1?) 或yn+1=f^(xn+1){y_{n + 1}} = \hat f({x_{n + 1}})yn+1?=f^?(xn+1?) 給出相應的輸出yn+1{y_{n + 1}}yn+1?
無監督學習
-
定義
- 從無標注數據中學習預測模型的機器學習問題
- 無標注數據表示自然得到的數據。預測模型表示數據的類別、轉換或概率
- 本質:學習數據中的統計規律或潛在結構
-
問題形式化
?
-
實現過程
- 學習過程:學習系統從訓練數據集($U = { {x_1},{x_2},…,{x_n})} ?)學習,得到一個最優模型,表示為函數?)學習,得到一個最優模型,表示為函數?)學習,得到一個最優模型,表示為函數Z = \hat g(X)?,得到一個最優模型,表示為條件概率分布?,得到一個最優模型,表示為條件概率分布?,得到一個最優模型,表示為條件概率分布{\rm{\hat P}}(z|x)?或條件概率分布? 或條件概率分布?或條件概率分布{\rm{\hat P}}(x|z)$? 。
- 預測過程:預測系統對于給定的測試樣本中的輸入xN+1{x_{N + 1}}xN+1??? ,由模型zN+1=arg?max?yP^(y∣xN+1){z_{N + 1}} = \arg \mathop {\max }\limits_y \hat P(y|{x_{N + 1}})zN+1?=argymax?P^(y∣xN+1?)?? 或zn+1=f^(xn+1){z_{n + 1}} = \hat f({x_{n + 1}})zn+1?=f^?(xn+1?)?? 給出相應的輸出zn+1{z_{n + 1}}zn+1??? ,進行聚類或降維,或者由模型P^(x∣z){\rm{\hat P}}(x|z)P^(x∣z)?? 給出輸入的概率P^(xn+1∣zn+1){\rm{\hat P}}(x_{n+1}|z_{n+1})P^(xn+1?∣zn+1?)??,進行概率估計。
強化學習
-
定義
- 指智能系統在與環境的連續互動中學習最優行為策略的機器學習問題。
- 本質:學習最優的序貫決策
- 假設智能系統與環境的互動基于馬爾代夫決策過程,智能系統觀測到的時環境互動得到的數據序列。
-
強化學習的馬爾可夫決策過程是狀態、獎勵、動作序列上的隨機過程,由五元組<S,A,P,r,γ>組成。
-
S是有限狀態(state)的集合
-
A是有限動作(action)的集合
-
Р是狀態轉移概率(transition probability)函數:
P(s′∣s,a)=P(st+1=s′∣st=s,at=a){\rm{P}}(s'|s,a) = P({s_{t + 1}} = s'|{s_t} = s,{a_t} = a) P(s′∣s,a)=P(st+1?=s′∣st?=s,at?=a) -
r是獎勵函數(reward function) : r(s,a)=E(rt+1∣st=s,at=a)r(s,a) = E({r_{t + 1}}|{s_t} = s,{a_t} = a)r(s,a)=E(rt+1?∣st?=s,at?=a)?
-
γ是衰減系數(discount factor ) : γ ∈ [0,1]
-
-
馬爾可夫決策過程具有馬爾可夫性,下一個狀態只依賴于前一個狀態與動作,下一個獎勵依賴于前一個狀態與動作
- 狀態轉移概率函數:P(s′∣s,a)P(s'|s,a)P(s′∣s,a)
- 獎勵函數:r(s,a)r(s,a)r(s,a)
- 策略π:給定狀態下動作的函數a=f(s)a=f(s)a=f(s) 或者條件概率分布P(a∣s)P(a|s)P(a∣s),給定一個策略π,智能系統與環境互動的行為就已經確定。
- 狀態價值函數:vπ(s)=Eπ[rt+1+γrt+2+γ2rt+3+?∣st=s]v_{\pi}(s)=E_{\pi}\left[r_{t+1}+\gamma r_{t+2}+\gamma^{2} r_{t+3}+\cdots \mid s_{t}=s\right]vπ?(s)=Eπ?[rt+1?+γrt+2?+γ2rt+3?+?∣st?=s]
- 動作價值函數:qπ(s,a)=Eπ[rt+1+γrt+2+γ2rt+3+?∣st=s,at=a]q_{\pi}(s, a)=E_{\pi}\left[r_{t+1}+\gamma r_{t+2}+\gamma^{2} r_{t+3}+\cdots \mid s_{t}=s, a_{t}=a\right]qπ?(s,a)=Eπ?[rt+1?+γrt+2?+γ2rt+3?+?∣st?=s,at?=a]
-
強化學習方法
- 無模型(model-free)
- 基于策略(policy-based):求解最優策略π*
- 基于價值(value-based):求解最優價值函數
- 有模型(model-based)
1. 通過學習馬爾可夫決策過程的模型,包括轉移概率函數和獎勵函數
2. 通過模型對環境的反饋進行預測
3. 求解價值函數最大的策略π*
- 無模型(model-free)
半監督學習
- 少量標注數據,大量未標注數據
- 利用未標注數據的信息,輔助標注數據,進行監督學習
- 較低成本
主動學習
- 機器主動給出實例,教師進行標注
- 利用標注數據學習預測模型
按模型分類
統計學習模型可以基于模型分為概率模型和非概率模型;
統計學習模型,特別是非概率模型可以分為線性模型和非線性模型;
統計學習模型,又可分為參數化模型和非參數化模型。
- 概率模型和非概率模型
- 概率模型(probabilistic model)
- 在監督學習中概率模型取條件分布形式P(y∣x)P(y|x)P(y∣x)
- 在非監督學習中概率模型取條件分布形式P(z∣x)P(z|x)P(z∣x)或P(x∣z)P(x|z)P(x∣z)
- 非概率模型(non-probabilistic model)或確定性模型(deterministic model)
- 在監督學習中概率模型取條件分布形式y=f(x)y=f(x)y=f(x)
- 在非監督學習中概率模型取條件分布形式x=g(x)x=g(x)x=g(x)?
- 概率模型(probabilistic model)
- 線性模型和非線性模型
- 參數化模型和非參數化模型
按算法分類
統計學習模型根據算法分為在線學習和批量學習。
-
在線學習(online learning):每次接受一個樣本,進行預測,之后學習模型,并不斷重復該操作的機器學習。
-
批量學習(batch learning):一次接受所有的樣本,學習模型,之后進行預測。
按技巧分類
統計學習方法可以根據使用的技巧分為貝葉斯學習和核方法。
貝葉斯學習(Bayesian learning)
-
模型估計時,估計整個后驗概率分布P(θ∣D)P(θ|D)P(θ∣D)???。如果需要給出一個模型,通常取后驗概率最大的模型。
-
P(θ∣D)=P(θ)P(D∣θ)P(D)(P(θ)是先驗概率,P(θ∣D)是似然函數){\rm{P(}}\theta |D) = \frac{{P(\theta )P(D|\theta )}}{{P(D)}} (P(θ)是先驗概率,P(θ|D)是似然函數) P(θ∣D)=P(D)P(θ)P(D∣θ)?(P(θ)是先驗概率,P(θ∣D)是似然函數)
-
預測時,計算數據對后驗概率分布的期望值:
P(x∣D)=∫P(x∣θ,D)P(θ∣D)dθ(x是新樣本){\rm{P(x}}|D) = \int {P(x|\theta ,D)P} (\theta |D)d\theta(x是新樣本) P(x∣D)=∫P(x∣θ,D)P(θ∣D)dθ(x是新樣本) -
假設先驗分布是均勻分布,取后驗概率最大,就能從貝葉斯估計得到極大似然估計。
- 與試驗結果無關,或與隨機抽樣無關,反映在進行統計試驗之前根據其他有關參數θ的知識而得到的分布。θ的分布函數記為H(θ),θ的密度函數記為h(θ),分別稱為先驗分布函數和先驗密度函數,兩者合稱為先驗分布。
- 極大似然估計是建立在這樣的思想上:已知某個參數能使這個樣本出現的概率最大,我們當然不會再去選擇其他小概率的樣本,所以干脆就把這個參數作為估計的真實值。
核方法(kernel method)
- 使用核函數表示和學習非線性模型,將線性模型學習方法擴展到非線性模型的學習
- 不顯式地定義輸入空間到特征空間的映射,而是直接定義核函數,即映射之后在特征空間的內積
- 假設x1,x2x1,x2x1,x2是輸入空間的任意兩個實例,內積為<x1,x2><x1, x2><x1,x2>,輸入空間到特征空間的映射為φ,核方法在輸入空間中定義核函數 K(x1,x2)K(x1, x2)K(x1,x2),使其滿足 K(x1,x2)=<φ(x1),φ(x2)>K(x1, x2) = < φ(x1), φ(x2)>K(x1,x2)=<φ(x1),φ(x2)>
不顯式地定義輸入空間到特征空間的映射,而是直接定義核函數,即映射之后在特征空間的內積
- 假設x1,x2x1,x2x1,x2是輸入空間的任意兩個實例,內積為<x1,x2><x1, x2><x1,x2>,輸入空間到特征空間的映射為φ,核方法在輸入空間中定義核函數 K(x1,x2)K(x1, x2)K(x1,x2),使其滿足 K(x1,x2)=<φ(x1),φ(x2)>K(x1, x2) = < φ(x1), φ(x2)>K(x1,x2)=<φ(x1),φ(x2)>
總結
- 上一篇: 6 HBase java API访问HB
- 下一篇: 统计学习综述