如何解决大量样本标注问题
生活随笔
收集整理的這篇文章主要介紹了
如何解决大量样本标注问题
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
?????? TSVM? 常見的解決未標(biāo)注樣本的方法有EM (Expectation Maximization) 算法 ,協(xié)同訓(xùn)練法,Transductive SVM 方法及最大熵判別法等.????
?????? 原文鏈接:http://blog.sina.com.cn/s/blog_4c98b9600100094l.html
? ? ? ??????? TSVM是一種不依賴于推廣性思想的經(jīng)驗推理。由于其是從特殊到特殊的推理,難以直接進(jìn)行客觀驗證。因此,直到現(xiàn)在才開始得到人們研究的重視,但它已經(jīng)在一些領(lǐng)域中(例如生物基因選擇,數(shù)字識別)取得了初步結(jié)果,甚至表現(xiàn)出了比傳統(tǒng)ISVM更好的性能。直推式SVM 的決策分類函數(shù)是建立在訓(xùn)練集Strain和測試集Stest 的基礎(chǔ)上。
?? ? ?? 由于徑向基函數(shù)(Radial Basis Function,RBF)在高維空間分類問題中的優(yōu)越表現(xiàn),我們選取RBF作為SVM分類器的核函數(shù)。在TSVM學(xué)習(xí)期間,測試樣本就對其施加了影響。因此,TSVM學(xué)習(xí)的結(jié)果中就包含了測試樣本的數(shù)據(jù)特征。經(jīng)過學(xué)習(xí)后,TSVM就會產(chǎn)生一個分類決策函數(shù),即最優(yōu)分類超平面。測試樣本經(jīng)過TSVM分類器處理后,再由入侵檢測決策系統(tǒng)根據(jù)分類結(jié)果來判斷是否有攻擊行為的發(fā)生。為了盡可能將正常數(shù)據(jù)和攻擊數(shù)據(jù)正確地區(qū)分,以提高入侵檢測的檢測率,TSVM試圖尋找最優(yōu)分類超平面。而TSVM的有效學(xué)習(xí)是非常重要的,其具體的學(xué)習(xí)過程如下:
??? ? ? (1)TSVM根據(jù)指定的懲罰因子C和C*,利用訓(xùn)練數(shù)據(jù)中包含的正負(fù)標(biāo)簽的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行歸納式學(xué)習(xí),得到一個比較原始的樣本分類器。隨后,TSVM假定訓(xùn)練集中無標(biāo)記網(wǎng)絡(luò)數(shù)據(jù)樣本中正負(fù)樣本的比例為1:1,并指定一個訓(xùn)練集中無標(biāo)簽樣本的臨時懲罰因子C*temp。
?????? (2)TSVM用得到的樣本分類器對訓(xùn)練集中的無標(biāo)簽樣本進(jìn)行重新分類,根據(jù)分類器對無標(biāo)簽網(wǎng)絡(luò)數(shù)據(jù)記錄的判別結(jié)果,對無標(biāo)簽數(shù)據(jù)作出正負(fù)分類判決,并將判決值較大的一半樣本標(biāo)記為正標(biāo)簽,另外一半標(biāo)記為負(fù)樣本。
? ?? ??(3)用得到的經(jīng)過重新標(biāo)記的訓(xùn)練集數(shù)據(jù)對TSVM學(xué)習(xí)機進(jìn)行重新訓(xùn)練,得到新的分類器。然后,按一定的規(guī)則交換一對標(biāo)簽值不同的訓(xùn)練樣本的標(biāo)簽符號,即把起初標(biāo)記為正樣本的未標(biāo)記樣本中標(biāo)記為負(fù)樣本,起初標(biāo)記為負(fù)樣本的標(biāo)記為正樣本,計算式(2)的值,使得問題(2)的值獲得最大下降。反復(fù)執(zhí)行訓(xùn)練樣本標(biāo)簽的變換,直到找不出滿足交換條件的樣本為止。
? ? ??(4)均勻地增加未標(biāo)記樣本的懲罰因子C*temp的值,并重新執(zhí)行步驟(3),直到C*temp≥C 時,TSVM 的學(xué)習(xí)結(jié)束。
?????? 當(dāng)TSVM終止學(xué)習(xí)后,就可以用學(xué)習(xí)得到的分類器對測試樣本進(jìn)行分類判別。入侵檢測決策系統(tǒng)根據(jù)TSVM分類器分類的結(jié)果作出是否有入侵行為發(fā)生的判斷。TSVM在學(xué)習(xí)的過程中,結(jié)合了大量的未標(biāo)記網(wǎng)絡(luò)數(shù)據(jù)的信息,并反復(fù)調(diào)整未標(biāo)記數(shù)據(jù)對TSVM學(xué)習(xí)機的影響,以追求對無標(biāo)簽樣本的最小分類誤差。因此,基于TSVM的入侵檢測系統(tǒng)比基于ISVM的檢測系統(tǒng)需要更長的學(xué)習(xí)時間,但是由于結(jié)合了測試樣本的影響,在對測試樣本分類的準(zhǔn)確度上也會得到一定程度的提高。
總結(jié)
以上是生活随笔為你收集整理的如何解决大量样本标注问题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 我的起源数据石怎么获得
- 下一篇: Apache Mahout:适合所有人的