當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

模式识别与机器学习课程笔记——决策树和贝叶斯估计

發(fā)布時間：2025/1/21 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了模式识别与机器学习课程笔记——决策树和贝叶斯估计小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

前言
1 eager learner
- 1.1 Desicion Trees
- - 1.1.1 第一個決策樹：ID3算法
  - - 1.1.1.2 熵
    - 1.1.1.3 ID3實現(xiàn)舉例
    - 1.1.1.4 剪枝問題
  - 1.1.2 決策樹的特點
  - 1.1.3 其他決策樹算法
  - 1.1.4 決策樹特點
- 1.2 Bayesian
- - 1.2.1 樸素貝葉斯
  - 1.2.2 樸素貝葉斯舉例Na?ve Bayes Classifier (NB)
  - 1.2.3 樸素貝葉斯舉例Bayesian Decision
  - - 1.2.3.1 最小錯誤率貝葉斯決策
    - 1.2.3.2 最小風險貝葉斯決策
  - 1.2.4 樸素貝葉斯舉例Parameter Estimation
- 1.3 Linear Regression
- - 1.3.1 為何叫線性的
  - 1.3.2 常見的基函數(shù)
  - 1.3.3訓練方式：最小二乘法
  - 1.3.4 解決過擬合
- 1.3 Logistic Regression（只有兩種類別）

前言

????創(chuàng)新不是天馬星空，無復盤不學習。

1 eager learner

1.1 Desicion Trees

1.1.1 第一個決策樹：ID3算法

1.1.1.2 熵

熵：ID3決策樹選擇屬性的依據(jù)；在熱力學中，對于孤立的系統(tǒng)，任何自發(fā)進行的過程都不能使得系統(tǒng)的狀態(tài)函數(shù)熵的總值減少（熵恒增定律）。

熵的含義：熵代表一個系統(tǒng)的混亂程度，對于一個孤立的系統(tǒng)，當發(fā)生可逆的過程的時候，熵增為零，當發(fā)生不可逆的過程的時候，熵增為正。

麥克斯韋妖（Maxwell’s demon）：1867年，麥克斯韋提出一個假說，就是在一個系統(tǒng)旁邊有一個小妖怪，它知道所有粒子的運動狀態(tài)和屬性，而且這個系統(tǒng)中間插了一個帶有一個小門孔的擋板。當這個小妖怪看準時機，打開小孔，“人”為的將系統(tǒng)兩邊的狀態(tài)變的熱的更熱，冷的更冷。此時熵就減少了，因為熱與冷統(tǒng)一了，混亂減少了。

負熵：上述麥克斯韋妖獲得了分子的信息才使得系統(tǒng)的熵減少，我們稱信息為負熵，信息的獲取需要能量。

1.1.1.3 ID3實現(xiàn)舉例

信息熵公式。

天氣預報舉例：根據(jù)天氣判斷能不能出去玩。

分支選擇：

首先是我們能夠根據(jù)“規(guī)則”來判斷哪些天氣能夠出去玩，yes or no。
在任何初始樹創(chuàng)建之前，我們是知道訓練樣本由9個yes和5個no。
初始的信息熵為：

再算出訓練樣本中各個天氣屬性的熵，這里以outlook為例：

選擇熵減少最多（初始熵-各個各個天氣屬性的熵）的屬性作為第一個分支，因為我們的目的是熵減，熵減少越多我們得到的信息就越多，我們最后就能得到一個比較好的判斷系統(tǒng)。
這里以熵減少最多的outlook為例：

建立分支

繼續(xù)分裂，我們現(xiàn)在要在sunny，overcast，rainy下繼續(xù)分支，依然按照第一個分支所遵循的熵減最多規(guī)則。這里以sunny為例：就是所以天氣屬性為sunny的樣本為一個數(shù)據(jù)集，對其進行如1-3步驟的處理。

1.1.1.4 剪枝問題

在ID3算法中，計算信息增益時，由于信息增益存在一個內在偏置，它偏袒具有較多值的屬性，太多的屬性值把訓練樣例分割成非常小的空間。因此，這個屬性可能會有非常高的信息增益，而且被選作樹的根結點的決策屬性，并形成一棵深度只為一級但卻非常寬的樹，這棵樹可以理想地分類訓練數(shù)據(jù)。但是這個決策樹對于測試數(shù)據(jù)的分類性能可能會相當差（泛化能力較差），因為它過分地完美地分割了訓練數(shù)據(jù)，不是一個好的分類器。

1.1.2 決策樹的特點

不需要特定領域的知識和參數(shù)設置，適合與探測式知識發(fā)現(xiàn)。

大數(shù)據(jù)無法放入內存

1.1.3 其他決策樹算法

1.1.4 決策樹特點

能充分利用領域知識和其它先驗信息

能進行增量學習，能處理不完整數(shù)據(jù)

處理對象的屬性一般是離散的

1.2 Bayesian

???? 話說貝葉斯是個牧師，這號人是相信上帝的，所以他的理論里會有一個先驗概率。

1.2.1 樸素貝葉斯

它與貝葉斯網絡的區(qū)別就是假定各個屬性之間是獨立的。

1.2.2 樸素貝葉斯舉例Na?ve Bayes Classifier (NB)

貝葉斯分類器的思路：就是用貝葉斯公式計算出測試樣本屬于各個類別的概率，然后選出概率最大的那個類別作為該測試樣本的類別。

一個實例：

1.2.3 樸素貝葉斯舉例Bayesian Decision

貝葉斯決策的前提：

決策問題可以以概率分布的形式描述

與決策有關的概率分布均是可計算的
貝葉斯決策是要事先知道我決策類型的概率分布的（例如正態(tài)分布，平均分布，指數(shù)分布）。

1.2.3.1 最小錯誤率貝葉斯決策

最小錯誤率貝葉斯決策的目標是希望決策的平均錯誤率盡可能小。

定義錯誤率：

舉例：假設一組訓練數(shù)據(jù)符合正態(tài)分布，即滿足貝葉斯決策的前提條件。

選擇xc為決策邊界（x>xc歸為1類，反之歸為2類，下同）的平均錯誤率：B+D+E+C
選擇xb為決策邊界的平均錯誤率：E+D+C
選擇xa為決策邊界的平均錯誤率：A+D+C+E
可以看到我們選擇xb為決策邊界比較合適。

1.2.3.2 最小風險貝葉斯決策

目的是希望平均損失最小，我們首先定義當判斷錯誤了之后的風險函數(shù)，風險函數(shù)的定義是至關重要的，這也是和最小錯誤率貝葉斯決策的區(qū)別。比如將有病誤判成無病的風險遠遠大于將無病誤判成有病，因為前者是人的生命健康，后者是錢。

決策函數(shù)：決策函數(shù)就是根據(jù)風險最小來選擇x的類別。
顯然，最小風險貝葉斯決策選取使得條件風險最小的決策，同時該決策也會使得總體風險最小。

1.2.4 樸素貝葉斯舉例Parameter Estimation

貝葉斯網絡也可以用于參數(shù)估計，首先數(shù)據(jù)符合的模型是已知的，只是其中的參數(shù)需要進一步估計確定。

最大似然估計的方法：

最大后驗估計的方法

貝葉斯參數(shù)估計：

1.3 Linear Regression

1.3.1 為何叫線性的

1.3.2 常見的基函數(shù)

1.3.3訓練方式：最小二乘法

1.3.4 解決過擬合

1.3 Logistic Regression（只有兩種類別）

邏輯回歸使用邏輯函數(shù)（兩種類別輸入進去得到的函數(shù)值相加等于1）和回歸模型將分類目標轉換成一個線性模型，返回值用于表示二分類問題中的概率。

這里我們用邏輯函數(shù) $σ(x)=exex+1\sigma(x)=\frac {e^x}{e^x+1}$

對于邏輯回歸這種二分類問題，我們使用最大似然函數(shù)來進行參數(shù)的更新

線性回歸是擬合輸入向量 x 的分布，而邏輯回歸中的線性函數(shù)是在擬合決策邊界，它們的目標不一樣，但同屬于廣義線性模型 GLM(Generalized Linear Models)，通過輸入值 x 結合線性權重來預測輸出值

總結

以上是生活随笔為你收集整理的模式识别与机器学习课程笔记——决策树和贝叶斯估计的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：多项式（polynomial）和单项式
下一篇：算法的时间与空间复杂度