當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

ML之监督学习算法之分类算法一 ——— 决策树算法

發(fā)布時(shí)間：2024/9/21 编程问答 64 豆豆

生活随笔收集整理的這篇文章主要介紹了 ML之监督学习算法之分类算法一 ——— 决策树算法小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、概述

　　決策樹（decision tree）的一個(gè)重要任務(wù)是為了數(shù)據(jù)中所蘊(yùn)含的知識(shí)信息，因此決策樹可以使用不熟悉的數(shù)據(jù)集合，并從中提取出一系列規(guī)則，在這些機(jī)器根據(jù)數(shù)據(jù)創(chuàng)建規(guī)則時(shí)，就是機(jī)器學(xué)習(xí)的過(guò)程。

二、決策樹的構(gòu)造

　　決策樹：

　　　　優(yōu)點(diǎn)：計(jì)算復(fù)雜度不高，輸出結(jié)果易于理解，對(duì)中間值的缺失不敏感，可以處理不相關(guān)特征數(shù)據(jù)。

　　　　缺點(diǎn)：可能會(huì)產(chǎn)生過(guò)度匹配問(wèn)題。

　　適用數(shù)據(jù)類型：數(shù)值型和標(biāo)稱型

　　在構(gòu)造決策樹時(shí)，我們需要解決的第一個(gè)問(wèn)題就是，當(dāng)前數(shù)據(jù)集上哪個(gè)特征在劃分?jǐn)?shù)據(jù)分類時(shí)起決定性作用。為了找到?jīng)Q定性的特征，劃分出最好的結(jié)果，我們必須評(píng)估每個(gè)特征。完成測(cè)試之后，原始數(shù)據(jù)集就被劃分為幾個(gè)數(shù)據(jù)子集。?這些數(shù)據(jù)子集會(huì)分布在第一個(gè)決策點(diǎn)的所有分支上；
　　決策樹的一般流程
　　　　1. 收集數(shù)據(jù)：可以使用任何方法。
　　　　2. 準(zhǔn)備數(shù)據(jù)：樹構(gòu)造算法只適用于標(biāo)稱型數(shù)據(jù)，因此數(shù)值型數(shù)據(jù)必須離散化。
　　　　3. 分析數(shù)據(jù)：可以使用任何方法，構(gòu)造樹完成之后，我們應(yīng)該檢查圖形是否符合預(yù)期。
　　　　4. 訓(xùn)練算法：構(gòu)造樹的數(shù)據(jù)結(jié)構(gòu)。
　　　　5. 測(cè)試算法：使用經(jīng)驗(yàn)樹計(jì)算錯(cuò)誤率。
　　　　6. 使用算法：此步驟可以適用于任何監(jiān)督學(xué)習(xí)算法，而使用決策樹可以更好地理解數(shù)據(jù)的內(nèi)在含義。

　　涉及的算法：

　　　　二分法：一些決策樹算法采用二分法劃分?jǐn)?shù)據(jù)，

　　　　ID3：?而我們將適用ID3算法劃分?jǐn)?shù)據(jù)集?， ID3算法更多信息了解

　　　　C4.5： ID3的一個(gè)改進(jìn)，比ID3準(zhǔn)確率高且快，可以處理連續(xù)值和有缺失值的feature

　　　　CRAT：使用基尼指數(shù)的劃分準(zhǔn)則，通過(guò)在每個(gè)步驟最大限度降低不純潔度， CART能夠處理孤立點(diǎn)以及對(duì)空缺值的處理；

　信息增益：

　　劃分?jǐn)?shù)據(jù)集的大原則是：將無(wú)序的數(shù)據(jù)變得更加有序。我們可以使用多種方法劃分?jǐn)?shù)據(jù)集，但是每種方法都有各自的優(yōu)缺點(diǎn)。組織雜亂無(wú)章數(shù)據(jù)的一種方法就是使用信息論度量信息，信息論是量化處理信息的分支科學(xué)。我們可以在劃分?jǐn)?shù)據(jù)前后使用信息論量化度量信息的內(nèi)容。
　　在劃分?jǐn)?shù)據(jù)集之前之后信息發(fā)生的變化稱為信息增益，知道如何計(jì)算信息增益，我們就可以計(jì)算每個(gè)特征值劃分?jǐn)?shù)據(jù)集獲得的信息增益，獲得信息增益最高的特征就是最好的選擇。
　熵：
　　為了計(jì)算熵（entropy），我們需要計(jì)算所有類別所有可能值包含的信息期望值，通過(guò)下面的公式得到：
　　

　　符號(hào)xi 的信息定義為：

　　其中p(xi)是選擇該分類的概率

　　熵的單位是bit，用來(lái)衡量信息的多少；從計(jì)算熵的公式來(lái)看：

　　　　變量的不確定性越大，熵就越大；

　　計(jì)算完信息熵后，我們便可以得到數(shù)據(jù)集的無(wú)序程度。我們將對(duì)每個(gè)特征劃分?jǐn)?shù)據(jù)集的結(jié)果計(jì)算一次信息熵，然后判斷哪個(gè)特征劃分?jǐn)?shù)據(jù)集是最好的劃分方式（根據(jù)信息熵判斷，信息熵越小，說(shuō)明劃分效果越好）

三、ID3算法

　　選擇屬性判斷節(jié)點(diǎn)；

　　信息獲取量（Information Gain）： Gain（A）= Info（D） - Infor_A(D) , 通過(guò)A來(lái)作為節(jié)點(diǎn)分類獲取了多少信息；　　

總結(jié)

以上是生活随笔為你收集整理的ML之监督学习算法之分类算法一 ——— 决策树算法的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：通过添加HTTP Header实现上下文
下一篇： find的用法