日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

C4.5-Release8中Ross Quinlan对缺失值的处理

發布時間:2023/12/20 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 C4.5-Release8中Ross Quinlan对缺失值的处理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

案例來自Ross Quinlan的書籍《C4.5:programs for machine learning》
數據集如下

為了模仿缺失值的情況,現在把上面?處的地方改為缺失值。
那么根據現有13條明確的數據集(不再是14條)
此時
?=sunny的概率是:513\frac{5}{13}135?
?=overcast的概率是:313\frac{3}{13}133?
?=rain的概率是:513\frac{5}{13}135?


書中的決策樹如下

上面這個結果是根據下面的源代碼跑出來的。
http://www.rulequest.com/Personal/c4.5r8.tar.gz
對應的決策樹結果是:

繪制上圖對應的代碼是:
test.dot

digraph graphname { "Outlook"->"Humidity"[label="sunny", fontcolor=darkgreen] // edge T->P "Humidity"->"Play (2.0|0.0)"[label="≤75", fontcolor=darkgreen]"Humidity"->"Don't Play (3.4|0.4)"[label=">75", fontcolor=darkgreen]"Outlook"->"Play (3.2|0.0)"[label="overcast", fontcolor=darkgreen]"Outlook"->"Windy"[label="rain", fontcolor=darkgreen]"Windy"->"Don't Play (2.4|0.4)"[label="true", fontcolor=darkgreen]"Windy"->"Play (3.0|0.0)"[label="false", fontcolor=darkgreen]}

運行方法

dot -Tpng -o decision.png ./test.dot

對于上面的小數解釋如下:


當?=sunny:
該條缺失數據滿足
Outlook=sunny
Humidity>75
也就是說到達了Don’t Play這個葉子節點,但是該數據是屬于Play這個類別的
所以加上原來的3條數據,總共是35133\frac{5}{13}3135?條數據,由于類別與該類別不一致,所以該葉子節點的誤判條數為513\frac{5}{13}135?
所以該葉子節點的最終結果是:(35133\frac{5}{13}3135?|513\frac{5}{13}135?)=(3.4|0.4)
表示到達該葉子節點的有35133\frac{5}{13}3135?條,其中不滿足的有513\frac{5}{13}135?


當?=overcast:由于13條數據中有3條數據是overcast,所以概率是313\frac{3}{13}133?
由于滿足Outlook=overcast的數據全部屬于Play,而該缺失數據也屬于Play,
所以不存在誤判
該葉子節點最終到達數據共計33133\frac{3}{13}3133?條,誤判0.0條
所以該葉子節點的最終結果是:(33133\frac{3}{13}3133?|0.0)=(3.2|0)

總結

以上是生活随笔為你收集整理的C4.5-Release8中Ross Quinlan对缺失值的处理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。