當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

统计学习方法，李航

發(fā)布時間：2024/1/18 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了统计学习方法，李航小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1.統(tǒng)計(jì)學(xué)習(xí)的特點(diǎn)、對象、目的、方法和研究

答：統(tǒng)計(jì)學(xué)習(xí)是一種以數(shù)據(jù)為研究對象，以計(jì)算機(jī)及網(wǎng)絡(luò)為平臺，以方法為中心，構(gòu)建概率統(tǒng)計(jì)模型并應(yīng)用模型進(jìn)行預(yù)測與分析的學(xué)科 12。統(tǒng)計(jì)學(xué)習(xí)的主要特點(diǎn)包括：（1）統(tǒng)計(jì)學(xué)習(xí)以計(jì)算機(jī)及網(wǎng)絡(luò)為平臺，是建立在計(jì)算機(jī)及網(wǎng)絡(luò)之上的；（2）統(tǒng)計(jì)學(xué)習(xí)以數(shù)據(jù)為研究對象，是數(shù)據(jù)驅(qū)動的學(xué)科；（3）統(tǒng)計(jì)學(xué)習(xí)的目的是對數(shù)據(jù)進(jìn)行預(yù)測與分析；（4）統(tǒng)計(jì)學(xué)習(xí)以方法為中心，構(gòu)建概率統(tǒng)計(jì)模型并應(yīng)用模型進(jìn)行預(yù)測與分析3 4。

統(tǒng)計(jì)學(xué)習(xí)的方法包括：監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí) 5 6。其中，監(jiān)督學(xué)習(xí)是最常用的一種方法，其目的是通過已知輸入和輸出訓(xùn)練樣本來構(gòu)建一個分類或回歸模型，然后對新樣本進(jìn)行分類或回歸預(yù)測 6 7。

2.監(jiān)督學(xué)習(xí)：基本概念，問題形式

答：監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種訓(xùn)練方式，是指利用一組已知類別的樣本調(diào)整分類器的參數(shù)，使其達(dá)到所要求性能的過程，也稱為監(jiān)督訓(xùn)練或有教師學(xué)習(xí)，是從標(biāo)記的訓(xùn)練數(shù)據(jù)來推斷一個功能的機(jī)器學(xué)習(xí)任務(wù) 1 2。監(jiān)督學(xué)習(xí)的問題形式包括分類問題和回歸問題3 4。

在監(jiān)督學(xué)習(xí)中，每個樣本都有一個標(biāo)簽或輸出值，而模型的目標(biāo)就是通過輸入數(shù)據(jù)來預(yù)測輸出值。監(jiān)督學(xué)習(xí)的基本概念包括：輸入空間、特征空間、輸出空間、假設(shè)空間、學(xué)習(xí)策略和損失函數(shù) 5 6。

3.統(tǒng)計(jì)學(xué)習(xí)的三要素：模型，策略，算法

答：統(tǒng)計(jì)學(xué)習(xí)方法由三要素構(gòu)成，即模型、策略和算法 1 2。其中，
模型是統(tǒng)計(jì)學(xué)習(xí)的最終結(jié)果，即決策函數(shù)或條件概率函數(shù)，它被用來預(yù)測特定問題下，將來未知輸入的輸出結(jié)果。
策略是統(tǒng)計(jì)學(xué)習(xí)過程中的產(chǎn)生最優(yōu)模型的評價準(zhǔn)則，通常由模型對某個樣本一次預(yù)測的好壞程度評價的損失函數(shù)和模型對所有樣本平均意義下風(fēng)險函數(shù)決定。
算法是指統(tǒng)計(jì)學(xué)習(xí)過程中具體的學(xué)習(xí)出模型的方法 3 4。

4.誤差與模型評估

答：模型評估用來評測模型的好壞。模型在訓(xùn)練集上的誤差通常稱為訓(xùn)練誤差或經(jīng)驗(yàn)誤差，而在新樣本上的誤差稱為泛化誤差。顯然，機(jī)器學(xué)習(xí)的目的是得到泛化誤差小的學(xué)習(xí)器。然而，在實(shí)際應(yīng)用中，新樣本是未知的，所以只能使訓(xùn)練誤差盡量小 1。

誤差評估方法有很多種，其中最常用的是均方根誤差（RMSE）、平均絕對誤差（MAE）和均方誤差1 (zhuanlan.zhihu.com) 2(zhuanlan.zhihu.com)。這些方法可以用來評估模型的預(yù)測誤差情況、擬合程度、模型穩(wěn)定性等方面。

5.過擬合與模型選擇

答：過擬合是指學(xué)習(xí)時選擇的模型所包含的參數(shù)過多，以致于出現(xiàn)這一模型對已知數(shù)據(jù)預(yù)測得很好，但對未知數(shù)據(jù)預(yù)測得很差的現(xiàn)象1 。為了避免過擬合，我們可以使用正則化、dropout等方法來減少模型的復(fù)雜度，或者使用更多的數(shù)據(jù)來訓(xùn)練模型 zh.wikipedia.org。

在機(jī)器學(xué)習(xí)中，模型選擇是一個重要的問題。模型選擇的目標(biāo)是在給定的學(xué)習(xí)問題上選擇一個最優(yōu)的模型。常用的模型選擇方法有交叉驗(yàn)證、貝葉斯模型選擇等 zhuanlan.zhihu.com。

6.正則化與交叉驗(yàn)證

答：正則化和交叉驗(yàn)證都是機(jī)器學(xué)習(xí)中常用的方法。

正則化是一種通過約束模型參數(shù)的大小來避免過擬合的方法。常用的正則化方法有L1正則化和L2正則化。L1正則化會使得一些參數(shù)變成0，從而實(shí)現(xiàn)特征選擇的效果；L2正則化會使得所有參數(shù)都變小，但不會變成0 cloud.tencent.com。

交叉驗(yàn)證是一種評估模型性能的方法。在交叉驗(yàn)證中，我們將數(shù)據(jù)集分成若干份，每次使用其中一份作為測試集，其余部分作為訓(xùn)練集。這樣可以避免過擬合，并且可以更好地評估模型的性能 bing.com blog.csdn.net。

7.泛化能力

答：泛化能力是指機(jī)器學(xué)習(xí)算法對新鮮樣本的適應(yīng)能力，即在原有的數(shù)據(jù)集上添加新的數(shù)據(jù)集，通過訓(xùn)練輸出一個合理的結(jié)果 baike.baidu.com zhuanlan.zhihu.com。泛化能力是衡量模型優(yōu)劣的重要指標(biāo)之一，好的模型應(yīng)該具有較強(qiáng)的泛化能力。

8.生成模型與判別模型

答：Generative Modeling （生成模型）和Discriminative Modeling （判別模型）。生成模型和判別模型是機(jī)器學(xué)習(xí)中的兩種常見模型。生成模型是指通過學(xué)習(xí)樣本，形成多個Y分布，然后計(jì)算聯(lián)合概率P (X,Y)，根據(jù)P (X,Y)的值預(yù)測新的樣本屬于哪個類。對于二分類問題，如果P (X,Y1)>P (X,Y2)，則新樣本X判定為Y1。而判別模型是由訓(xùn)練數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)f (X)或者條件概率分布P (X,Y)作為預(yù)測的模型，模型關(guān)心的是對給定的輸入X，應(yīng)該預(yù)測什么樣的輸出Y，與GM的不同在于不需要先學(xué)習(xí)出聯(lián)合分布P (X,Y) cnblogs.com zhuanlan.zhihu.com。
生成模型建模的是聯(lián)合分布p(x,y)，而判別模型建模的則是條件分布p(y|x)
zhuhu

9.分類問題，標(biāo)注問題與回歸問題

答：分類問題、標(biāo)注問題和回歸問題是機(jī)器學(xué)習(xí)中的三種常見問題。分類問題是指將數(shù)據(jù)集中的樣本分成若干類別，每個樣本只能屬于一個類別。標(biāo)注問題是指學(xué)習(xí)一個模型，使其能夠?qū)τ^測序列給出標(biāo)記序列作為預(yù)測。回歸問題用于預(yù)測輸入變量和輸出變量之間的關(guān)系，特別是當(dāng)輸入變量的值發(fā)生變化時，輸出變量的值隨之發(fā)生的變化。回歸任務(wù)的特點(diǎn)是標(biāo)注的數(shù)據(jù)集具有數(shù)值型的目標(biāo)變量 zhuanlan.zhihu.com zhuanlan.zhihu.com。

10.感知機(jī)：適用條件，輸入輸出，模型，策略，算法及其對偶形式

答：感知機(jī)是一種二分類的線性分類模型，輸入為實(shí)例的特征向量，輸出為實(shí)例的類別（取+1和-1）。感知機(jī)對應(yīng)于輸入空間中將實(shí)例劃分為兩類的分離超平面。感知機(jī)旨在求出該超平面，為求得超平面導(dǎo)入了基于誤分類的損失函數(shù)，利用梯度下降法對損失函數(shù)進(jìn)行最優(yōu)化。感知機(jī)模型假設(shè)
輸入空間（特征向量）是 $x∈R^{n}$ ，
輸出空間為 $Y$ ∈{?1,+1}，輸入 $x \in X$ 表示實(shí)例的特征向量，對應(yīng)于輸入空間的點(diǎn)，輸出 $y \in Y$ 表示實(shí)例的類別，
則由輸入空間到輸出空間的表達(dá)形式為： $f (x) = s i g n (w ? x + b)$ ，其中 $w$ 、 $b$ 稱為模型的參數(shù)， $w∈R^{n}$ 稱為權(quán)值，b稱為偏置
zhuanlan.zhihu.com
zhuanlan.zhihu.com
zhuanlan.zhihu.com。
對偶形式：感知機(jī)的對偶形式是將原始形式中的權(quán)值向量 $w$ 和偏置 $b$ 表示為實(shí)例 $x$ 和標(biāo)記 $y$ 的線性組合的形式，通過求解其系數(shù)而求得 $w$ 和 $b$ 。對偶形式的優(yōu)點(diǎn)在于每次計(jì)算 $X_{i}X_{j}$ 時可通過直接查矩陣中的元素獲得，而不用像原始的形式再去算一遍，因此可以加快一些運(yùn)算速度，數(shù)據(jù)越多節(jié)省的計(jì)算次數(shù)就越多，因此比原始形式更加的優(yōu)化 zhihu.com blog.csdn.net blog.csdn.net。

11.k近鄰：適用條件，輸入輸出，模型，策略，算法

答：
適用條件是：數(shù)據(jù)量較小，數(shù)據(jù)維度較低，數(shù)據(jù)分布比較均勻，對分類結(jié)果的準(zhǔn)確性要求較高。
輸入是實(shí)例的特征向量，輸出是實(shí)例的類別。
一種基本分類和回歸方法。 zhuanlan.zhihu.com zhuanlan.zhihu.com k近鄰（K- Nearest Neighbor，KNN）模型是一個非常簡單與直觀的模型，其基本思想可以用這樣一句俗語來解釋——“近朱者赤，近墨者黑”。 zhuanlan.zhihu.com
策略：給定一個訓(xùn)練數(shù)據(jù)集，對新的輸入實(shí)例，在訓(xùn)練數(shù)據(jù)集中找到與該實(shí)例最鄰近的k個實(shí)例，這k個實(shí)例的多數(shù)屬于某個類，就把該輸入實(shí)例分類到這個類中
實(shí)現(xiàn)步驟：

計(jì)算已知類別數(shù)據(jù)集中的點(diǎn)與當(dāng)前點(diǎn)之間的距離；

按照距離遞增次序排序；

選取與當(dāng)前點(diǎn)距離最小的k個點(diǎn)；

確定前k個點(diǎn)所在類別的出現(xiàn)頻率；

返回前k個點(diǎn)所出現(xiàn)頻率最高的類別作為當(dāng)前點(diǎn)的預(yù)測分類。

12.樸素貝葉斯法：適用條件，前驗(yàn)概率，后驗(yàn)概率，模型，策略，算法

答：適用條件：特征之間相互獨(dú)立，且每個特征同等重要 cloud.tencent.com
前驗(yàn)概率是指在沒有任何證據(jù)的情況下，某個事件發(fā)生的概率；
后驗(yàn)概率是指在已知某些條件下，某個事件發(fā)生的概率。
模型是指樸素貝葉斯分類器，它是一個生成模型，可以通過訓(xùn)練數(shù)據(jù)集來估計(jì)先驗(yàn)概率和條件概率 cloud.tencent.com。
策略是選擇后驗(yàn)概率最大的類別作為預(yù)測結(jié)果 zhuanlan.zhihu.com。
算法是指樸素貝葉斯算法，它包括訓(xùn)練和預(yù)測兩個過程 cloud.tencent.com

13.決策樹：適用條件、模型、學(xué)習(xí)過程（特征項(xiàng)選擇、決策樹生成、決策樹修剪）、算法（ID3，C4.5，CART）

決策樹是一種基于樹結(jié)構(gòu)的分類模型，它的適用條件是：特征之間相互獨(dú)立，且每個特征同等重要 zhuanlan.zhihu.com。決策樹模型由特征項(xiàng)選擇、決策樹生成和決策樹修剪三個過程組成 zhuanlan.zhihu.com。特征項(xiàng)選擇是指從所有特征中選擇一個最優(yōu)的特征作為當(dāng)前節(jié)點(diǎn)的分裂標(biāo)準(zhǔn)；決策樹生成是指遞歸地構(gòu)建決策樹，直到所有數(shù)據(jù)都被正確分類或者沒有更多的特征可以用于分裂；決策樹修剪是指通過剪枝來避免過擬合 zhuanlan.zhihu.com。常見的決策樹算法有ID3、C4.5和CART zhuanlan.zhihu.com。

14.邏輯斯蒂回歸模型

答：邏輯斯蒂回歸模型是一種經(jīng)典的分類方法，它屬于對數(shù)線性模型，原理是根據(jù)現(xiàn)有的數(shù)據(jù)對分類邊界線建立回歸公式，以此進(jìn)行分類 blog.csdn.net。邏輯斯蒂回歸模型的參數(shù)估計(jì)可以采用極大似然估計(jì)法 blog.csdn.net。邏輯斯蒂回歸模型的優(yōu)點(diǎn)是：①模型形式簡單，易于實(shí)現(xiàn)；②分類時計(jì)算量小，速度快；③可并行處理 zhuanlan.zhihu.com。

15.最大熵模型

答：最大熵模型(Maximum Entropy Model)是一種概率模型學(xué)習(xí)中的準(zhǔn)則，其思想為：在學(xué)習(xí)概率模型時，所有可能的模型中熵最大的模型是最好的模型；若概率模型需要滿足一些約束，則最大熵原理就是在滿足已知約束的條件集合中選擇熵最大模型 blog.csdn.net。最大熵模型是一種分類器，它可以用于分類、標(biāo)注、分詞等自然語言處理任務(wù) blog.csdn.net。

16.模型學(xué)習(xí)的最優(yōu)化算法

答：機(jī)器學(xué)習(xí)中常用的模型學(xué)習(xí)的最優(yōu)化算法有：梯度下降法、牛頓法、擬牛頓法、DFP算法、BFGS算法、改進(jìn)的迭代尺度法等 blog.csdn.net。這些算法都是用于訓(xùn)練模型參數(shù)的，即選取有效的特征函數(shù)權(quán)重 blog.csdn.net。

17.支持向量機(jī):線性可分支持向量機(jī)與硬間隔最大化、線性支持向量機(jī)與軟間隔最大化、非線性支持向量機(jī)與核函數(shù)、序列最小最優(yōu)化算法

答：支持向量機(jī)（SVM）是一種二分類模型，它的基本模型是定義在特征空間上的間隔最大的線性分類器，間隔最大使它有別于感知機(jī)；SVM還包括核技巧，這使它成為實(shí)質(zhì)上的非線性分類器 zhuanlan.zhihu.com。SVM的學(xué)習(xí)策略就是間隔最大化，可形式化為一個求解凸二次規(guī)劃的問題，也等價于正則化的合頁損失函數(shù)的最小化問題 zhuanlan.zhihu.com。SVM的學(xué)習(xí)算法就是求解凸二次規(guī)劃的最優(yōu)化算法 zhuanlan.zhihu.com。

支持向量機(jī)有三種模型：線性可分支持向量機(jī)、線性支持向量機(jī)和非線性支持向量機(jī) zhuanlan.zhihu.com。其中，線性可分支持向量機(jī)要求訓(xùn)練集線性可分，通過硬間隔最大化得到超平面；線性支持向量機(jī)要求訓(xùn)練集近似線性可分，通過軟間隔最大化獲得超平面；非線性支持向量機(jī)則通過核函數(shù)將輸入空間映射到高維特征空間，使得在特征空間中線性可分 zhuanlan.zhihu.com。

序列最小最優(yōu)化算法（SMO）是一種快速高效地求解支持向量機(jī)（SVM）二次規(guī)劃問題的算法 zhuanlan.zhihu.com。

總結(jié)

以上是生活随笔為你收集整理的统计学习方法，李航的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： discriminative train
下一篇： def convert_dummy(df