日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

ML之监督学习算法之分类算法一 ——— 决策树算法

發(fā)布時(shí)間:2024/9/21 编程问答 64 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ML之监督学习算法之分类算法一 ——— 决策树算法 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、概述

  決策樹(decision tree)的一個(gè)重要任務(wù)是為了數(shù)據(jù)中所蘊(yùn)含的知識(shí)信息,因此決策樹可以使用不熟悉的數(shù)據(jù)集合,并從中提取出一系列規(guī)則,在這些機(jī)器根據(jù)數(shù)據(jù)創(chuàng)建規(guī)則時(shí),就是機(jī)器學(xué)習(xí)的過(guò)程。

二、決策樹的構(gòu)造

  決策樹:

    優(yōu)點(diǎn):計(jì)算復(fù)雜度不高, 輸出結(jié)果易于理解, 對(duì)中間值的缺失不敏感, 可以處理不相關(guān)特征數(shù)據(jù)。

    缺點(diǎn): 可能會(huì)產(chǎn)生過(guò)度匹配問(wèn)題。

  適用數(shù)據(jù)類型:數(shù)值型和標(biāo)稱型

  在構(gòu)造決策樹時(shí), 我們需要解決的第一個(gè)問(wèn)題就是, 當(dāng)前數(shù)據(jù)集上哪個(gè)特征在劃分?jǐn)?shù)據(jù)分類時(shí)起決定性作用。 為了找到?jīng)Q定性的特征, 劃分出最好的結(jié)果, 我們必須評(píng)估每個(gè)特征。 完成測(cè)試之后, 原始數(shù)據(jù)集就被劃分為幾個(gè)數(shù)據(jù)子集。?這些數(shù)據(jù)子集會(huì)分布在第一個(gè)決策點(diǎn)的所有分支上;
  決策樹的一般流程
    1. 收集數(shù)據(jù): 可以使用任何方法。
    2. 準(zhǔn)備數(shù)據(jù): 樹構(gòu)造算法只適用于標(biāo)稱型數(shù)據(jù), 因此數(shù)值型數(shù)據(jù)必須離散化。
    3. 分析數(shù)據(jù): 可以使用任何方法, 構(gòu)造樹完成之后, 我們應(yīng)該檢查圖形是否符合預(yù)期。
    4. 訓(xùn)練算法: 構(gòu)造樹的數(shù)據(jù)結(jié)構(gòu)。
    5. 測(cè)試算法: 使用經(jīng)驗(yàn)樹計(jì)算錯(cuò)誤率。
    6. 使用算法: 此步驟可以適用于任何監(jiān)督學(xué)習(xí)算法, 而使用決策樹可以更好地理解數(shù)據(jù)的內(nèi)在含義。

  涉及的算法:

    二分法:一些決策樹算法采用二分法劃分?jǐn)?shù)據(jù),

    ID3:?而我們將適用ID3算法劃分?jǐn)?shù)據(jù)集?, ID3算法更多信息了解

    C4.5: ID3的一個(gè)改進(jìn), 比ID3準(zhǔn)確率高且快, 可以處理連續(xù)值和有缺失值的feature

    CRAT: 使用基尼指數(shù)的劃分準(zhǔn)則,通過(guò)在每個(gè)步驟最大限度降低不純潔度, CART能夠處理孤立點(diǎn)以及對(duì)空缺值的處理;

 信息增益:

  劃分?jǐn)?shù)據(jù)集的大原則是: 將無(wú)序的數(shù)據(jù)變得更加有序。 我們可以使用多 種方法劃分?jǐn)?shù)據(jù)集, 但是每種方法都有各自的優(yōu)缺點(diǎn)。 組織雜亂無(wú)章數(shù)據(jù)的一種方法就是使用信息論度量信息, 信息論是量化處理信息的分支 科學(xué)。 我們可以在劃分?jǐn)?shù)據(jù)前后使用信息論量化度量信息的內(nèi)容。
  在劃分?jǐn)?shù)據(jù)集之前之后信息發(fā)生的變化稱為信息增益, 知道如何計(jì)算信 息增益, 我們就可以計(jì)算每個(gè)特征值劃分?jǐn)?shù)據(jù)集獲得的信息增益, 獲得 信息增益最高的特征就是最好的選擇。
 熵:
  為了計(jì)算熵(entropy), 我們需要計(jì)算所有類別所有可能值包含的信息期望值, 通過(guò)下面的公式得到:
  

  符號(hào)xi 的信息定義為:

  其中p(xi)是選擇該分類的概率

  熵的單位是bit, 用來(lái)衡量信息的多少;從計(jì)算熵的公式來(lái)看:

    變量的不確定性越大, 熵就越大;

  計(jì)算完信息熵后,我們便可以得到數(shù)據(jù)集的無(wú)序程度。我們將對(duì)每個(gè)特征劃分?jǐn)?shù)據(jù)集的結(jié)果計(jì)算一次信息熵,然后判斷哪個(gè)特征劃分?jǐn)?shù)據(jù)集是最好的劃分方式(根據(jù)信息熵判斷,信息熵越小,說(shuō)明劃分效果越好)

  

三、ID3算法

  選擇屬性判斷節(jié)點(diǎn);

  信息獲取量(Information Gain): Gain(A)= Info(D) - Infor_A(D) , 通過(guò)A來(lái)作為節(jié)點(diǎn)分類獲取了多少信息;  

總結(jié)

以上是生活随笔為你收集整理的ML之监督学习算法之分类算法一 ——— 决策树算法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。