机器学习算法:补一个k-近邻算法的测试
生活随笔
收集整理的這篇文章主要介紹了
机器学习算法:补一个k-近邻算法的测试
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
之前寫k-近鄰算法(http://boytnt.blog.51cto.com/966121/1569629)的時候,沒附上測試數據,這回找了一個,測試一下算法的效果。數據來源于http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data,關于乳腺癌的樣本,屬性描述見breast-cancer-wisconsin.names。
樣本的大致形式如下:
| 1 | 1000025,5,1,1,1,2,1,3,1,1,2 |
第1個屬性是編號,我們不關心,最后一個屬性是結果,2表示benign(良性),4表示malignant(惡性)。其余9個屬性是樣本特征。注意里面有缺失數據(用?表示,共計16行,占2.3%),計算時要先做數據清洗,這里簡單填充成0即可。
用k-近鄰算法來測試一下:
| 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 | public?void?TestNearestNeighbour() { ????var?trainingSet?=?new?List<DataVector<double>>(); ????var?testSet?=?new?List<DataVector<double>>(); ????? ????//讀取數據 ????var?file?=?new?StreamReader("breast-cancer-wisconsin.txt",?Encoding.Default); ????for(int?i?=?0;i?<?699;++i) ????{ ????????string?line?=?file.ReadLine(); ????????var?parts?=?line.Split(','); ????????? ????????var?p?=?new?DataVector<double>(9); ????????for(int?j?=?0;j?<?p.Dimension;++j) ????????{ ????????????if(parts[j?+?1]?==?"?") ????????????????parts[j?+?1]?=?"0"; ????????????p.Data[j]?=?Convert.ToDouble(parts[j?+?1]); ????????} ????????p.Label?=?Convert.ToInt32(parts[10])?==?2???"benign"?:?"malignant"; ????????? ????????//用600個樣本做訓練,剩下99個做測試 ????????if(i?<?600) ????????????trainingSet.Add(p); ????????else ????????????testSet.Add(p); ????} ????file.Close(); ????? ????//檢驗 ????var?nn?=?new?NearestNeighbour(); ????nn.Train(trainingSet); ????int?error?=?0; ????foreach(var?p?in?testSet) ????{ ????????var?label?=?nn.Classify(p); ????????if(label?!=?p.Label) ????????????++error; ????} ????? ????Console.WriteLine("Error?=?{0}/{1},?{2}%",?error,?testSet.Count,?(error?*?100.0?/?testSet.Count)); } |
運行結果是99個測試樣本猜錯2個,錯誤率2.02%,效果不錯。
附件:http://down.51cto.com/data/2365048
? ? ?本文轉自 BoyTNT 51CTO博客,原文鏈接:http://blog.51cto.com/boytnt/1572149,如需轉載請自行聯系原作者
總結
以上是生活随笔為你收集整理的机器学习算法:补一个k-近邻算法的测试的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MyEclipse调试过程中遇到一个奇怪
- 下一篇: 阿里云云主机添加swap分区与swap性