當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Adaboost方法分类新闻数据

發布時間：2025/4/5 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 Adaboost方法分类新闻数据小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

使用Adaboost方法，以一級決策樹樹樁（Stump）為基礎建立弱分類器，形式為：（feature, threshold, positive/negtive）。

設定的最大輪數為20，最終使用了16輪就使總誤差就降到了0，得到了準確率100%的分類器。

分類的數據包括：business，sports，auto三類。

由于寫的Adaboost是二分類模型，所以將語料分為business和非business兩類劃分，分別為1和-1。feature的選取就是分詞的結果，選擇兩個字以上的詞。threshold也只做是否在文檔中出現的0/1劃分。

最終結果如下，可以看出，選擇的特征是有重復的，如“體育”特征，被選擇了好幾次，每次的樹樁也相同。在中間訓練過程中，總體的分類正確率也是有波動和反復的。

從選擇的特征詞可以看出，前半部分的特征詞還比較靠譜，后半部分就不一定了，比如“編輯”，“第一”，“來源”什么的，可見模型是有一定的過擬合的。

result stumplist is: [(2404, 0, -1), (32590, 0, -1), (19569, 0, 1), (12171, 0, 1), (29965, 0, -1), (15667, 0, 1), (12171, 0, 1), (32687, 0, -1), (25944, 0, 1), (12171, 0, 1), (32890, 0, -1), (2404, 0, -1), (4840, 0, -1), (15667, 0, 1), (9642, 0, 1), (8630, 0, -1)] result features are: 財經股票汽車體育銀行編輯體育作者責任體育教育財經指出編輯第一來源

單個樹樁的訓練過程中的輸出如下：

-------------------- Train stump round 9 -------------------- >>train featureindex is 0 get new min stump (0, 0, -1) feature is 石塊 , error is 0.408032946166 get new min stump (1, 0, -1) feature is 基建 , error is 0.402227800978 get new min stump (12, 0, -1) feature is 律師 , error is 0.397832761677 get new min stump (25, 0, -1) feature is 合理 , error is 0.385203075673 get new min stump (108, 0, -1) feature is 首席 , error is 0.382699443012 get new min stump (316, 0, -1) feature is 證券 , error is 0.344348559772 >>train featureindex is 1000 >>train featureindex is 2000 get new min stump (2258, 0, -1) feature is 政府 , error is 0.341484530448 get new min stump (2404, 0, -1) feature is 財經 , error is 0.27536370978 >>train featureindex is 3000 >>train featureindex is 4000 >>train featureindex is 5000 >>train featureindex is 6000 >>train featureindex is 7000 >>train featureindex is 8000 >>train featureindex is 9000 >>train featureindex is 10000 >>train featureindex is 11000 >>train featureindex is 12000 get new min stump (12171, 0, 1) feature is 體育 , error is 0.261865947444 >>train featureindex is 13000 >>train featureindex is 14000 >>train featureindex is 15000 >>train featureindex is 16000 >>train featureindex is 17000 >>train featureindex is 18000 >>train featureindex is 19000 >>train featureindex is 20000 >>train featureindex is 21000 >>train featureindex is 22000 >>train featureindex is 23000 >>train featureindex is 24000 >>train featureindex is 25000 >>train featureindex is 26000 >>train featureindex is 27000 >>train featureindex is 28000 >>train featureindex is 29000 >>train featureindex is 30000 >>train featureindex is 31000 >>train featureindex is 32000 >>train featureindex is 33000 >>train featureindex is 34000 >>train featureindex is 35000 >>train featureindex is 36000 >>train featureindex is 37000 >>train featureindex is 38000 this round stump is (12171, 0, 1) totallabelerror is 0.00293542074364
在寫Adaboost程序的時候，要注意一下，在每一輪中，訓練樹樁的時候，根據新的weightlist來訓練單個樹樁，此時計算單個樹樁的weightlist加權整體錯誤率，據此來選擇最好的樹樁；在本輪訓練樹樁結束后（即已選擇好本輪最好樹樁，跳出來進入下一輪訓練之前），需要計算整個Adaboost模型的分類錯誤率，此時需要將之前的所有樹樁的加權值（即cm值，或有的材料中叫alpha值）的預測結果和本輪樹樁的預測結果疊加，之后使用sign函數進行分類（之前的總的預測結果可以保留，這樣每次單獨加上本輪樹樁的更新值即可，無需再從頭計算），就得到了整體的分類正確率。這兩個分類正確率是不同的，分別是為了選擇最優樹樁和訓練整個Adaboost模型，前者只需要對新的weightlist進行加權即可，后者需要考慮之前得到的所有樹樁的預測值。我之前就弄混了，所以寫出來的總是預測的不對。

Python版的Adaboost算法代碼如下：

# /usr/bin/env python # -*- coding: utf-8 -*- from numpy import * import osdef getwordset(doclist):wordset = set(range(0))docwordset = []for doc in doclist:f = open(os.path.join(os.getcwd(), DIR, doc))content = f.read()words = content.split(' ')words = [word.strip() for word in words if len(word) > 4]wordset |= set(words)docwordset.append(list(set(words)))f.close()return list(wordset), docwordsetdef savefeaturelist(featurelist):f = open('featurelist','w')for feature in featurelist:f.write(feature + ' ')f.close()def classifydoclist(stump, doclist, weightlist):labellist = []for i in range(len(doclist)):#print 'classify doc',doclist[i]exist = 0words = docfeaturelist[i]if featurelist[stump[0]] in words: #Notice:'feature in words', NOT 'featureindex in words'exist = 1#append classify doc labelif exist == stump[1]:labellist.append(stump[2]) else:labellist.append(-1 * stump[2])return labellistdef trainstump(doclist, featurelist, weightlist):#stump is (featureindex, threshold, positive/negtive)minstump = (featurelist[0], 0, 0)minerror = 1.0minlabellist = []for featureindex in range(len(featurelist)):if featureindex % 1000 == 0: print '>>train featureindex is', featureindexfor threshold in [0, 1]:for symbol in [-1, 1]:stump = (featureindex, threshold, symbol)#print 'train stump',stumplabellist = classifydoclist(stump, doclist, weightlist)error = float(abs(array(doclabellist) - array(labellist))/2 * mat(weightlist).T)#print 'featureindex',featureindex,'error is',errorif error < minerror:minstump = stumpminerror = errorminlabellist = labellistprint 'get new min stump',stump,'feature is',featurelist[minstump[0]],', error is',errorif minerror == 0.0: breakreturn minstump, minerror, minlabellistdef getcm(error):error = max(error, 1e-16)return log((1.0-error)/error) #sometime this will muptiply 0.5.def updateweightlist(weightlist, cm, labellist):#print 'original weightlist is:\n',weightlist#minus = list(abs(array(doclabellist) - array(labellist))/2)minus = getclassifydiff(labellist)#print 'minus is:\n',minusweightlist = [weightlist[i] * exp(cm * minus[i]) for i in range(len(weightlist))]#print 'new weightlist0 is:\n',weightlistweightlist = [weight/sum(weightlist) for weight in weightlist]#print 'new weightlist is:\n',weightlistreturn weightlistdef sign(plist):result = [-1 for i in range(len(plist))]for i in range(len(plist)):if plist[i] > 0:result[i] = 1return resultdef getclassifydiff(plabellist):return list(abs(array(doclabellist) - array(plabellist))/2)def getclassifyerror(plabellist):#print 'predict labellist is',plabellistminus = getclassifydiff(plabellist)#print 'minus is',minusreturn 1.0 * minus.count(1) / len(plabellist)def traindata(doclist, featurelist):stumplist = []cmlist = []max_k = 20totallabelpredict = array([0.0 for i in range(len(doclabellist))])weightlist = [1.0/len(doclist) for i in range(len(doclist))]for i in range(max_k):print '\n','-' * 20,'Train stump round',i, '-' * 20#print 'new weightlist is',weightliststump, error, labellist = trainstump(doclist, featurelist, weightlist)print 'this round stump is',stumpcm = getcm(error)stumplist.append(stump)cmlist.append(cm)#check total predict result error.#print 'cm is',cmtotallabelpredict += cm * array(labellist)#print 'doclabellist is',doclabellist#print 'totallabelpredict is',totallabelpredicttotallabelerror = getclassifyerror(sign(totallabelpredict))print 'totallabelerror is',totallabelerror#print 'cm is',cmif totallabelerror == 0.0:break#update weight list.weightlist = updateweightlist(weightlist, cm, labellist)print '\n\nTrain data done!'#save model to filemodel = open('Adaboostmodel','w')model.write('cmlist:\n')model.write(str(cmlist)+'\n')model.write('stumplist:\n')model.write(str(stumplist)+'\n')model.write('stump features are:\n')print 'result stumplist is:', stumplistprint 'result features are:'for s in stumplist:print featurelist[s[0]]model.write(str(featurelist[s[0]])+'\n')model.close()print 'save model to file done!'def getdoclabellist(doclist):'''sports is -1, business is 1.two-class classify(business and not-business).'''labellist = [-1 for i in range(len(doclist))]for i in range(len(doclist)):if 'business' in doclist[i]:labellist[i] = 1return labellistdef adaboost():global DIRglobal doclist, featurelist, docfeaturelist, doclabellistDIR = 'news'print 'Arthur adaboost test begin...'print 'doc path DIR is:',DIRdoclist = os.listdir(os.path.join(os.getcwd(), DIR))doclist.sort()print 'total doc size:',len(doclist)#Get doc real label. train stump with this list!doclabellist = getdoclabellist(doclist)featurelist, docfeaturelist = getwordset(doclist)print 'total feature size:',len(featurelist)#train data to get stumps.traindata(doclist, featurelist)if __name__ == '__main__':adaboost()

Adaboost樹樁訓練完畢，之后在預測的時候直接使用cm作為每個樹樁的權重，之后對整體的預測結果使用sign函數即可進行分類預測。

總結

以上是生活随笔為你收集整理的Adaboost方法分类新闻数据的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：凸优化中如何改进GD方法以防止陷入局部最
下一篇：线性回归中的前提假设