日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

文本特征属性选择

發(fā)布時(shí)間:2024/4/11 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文本特征属性选择 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

今天,來(lái)學(xué)習(xí)文本的特征屬性選擇,在機(jī)器學(xué)習(xí)中,特征屬性的選擇通常關(guān)系到訓(xùn)練結(jié)果的可靠性,一個(gè)好的

特征屬性通常能起到滿意的分類(lèi)效果。凡是特征選擇,總是在將特征的重要程度量化后再進(jìn)行選擇,而如何量

化特征的重要性,就成了各種方法間最大的不同。接下來(lái)就介紹如何有效地進(jìn)行文本的特征屬性選擇。

?

Contents

?

???1. TF-IDF與特征屬性選擇

?? 2. 信息增益與特征屬性選擇

?? 3. 卡方檢驗(yàn)與特征屬性選擇

?? 4. 互信息與特征屬性選擇

?

?

文本分類(lèi)作為一種有效的信息檢索和信息過(guò)濾的關(guān)鍵技術(shù),能按預(yù)定義的類(lèi)別將待分類(lèi)的文本進(jìn)行歸類(lèi)。文本

分類(lèi)中常用到向量空間模型(VSM,然而高維的向量空間模型嚴(yán)重影響了計(jì)算機(jī)的處理速度,因此需要對(duì)文

本的向量進(jìn)行降維,那么就需要對(duì)文本進(jìn)行特征屬性選擇。

?

目前在文本分類(lèi)領(lǐng)域中常用的文本特征屬性選擇算法有:TF-IDF信息增益卡方檢驗(yàn)互信息等。

?

?

1. TF-IDF與特征屬性選擇

?

?? TF詞頻(Term Frequency)表示詞條在某個(gè)文檔d中出現(xiàn)的頻率。

?? IDF逆向文件頻率(Inverse Document Frequency),如果包含詞條t的文檔越少,那么IDF

?? 越大,則說(shuō)明詞條t具有很好的類(lèi)別區(qū)分能力。

?

???TF-IDF算法的主要思想是:如果某個(gè)詞或短語(yǔ)在某一篇文章中的出現(xiàn)頻率TF越高,而且在其它文章中很

?? 少出現(xiàn),那么認(rèn)為此詞或者短語(yǔ)具有很好的類(lèi)別區(qū)分能力,適合用來(lái)分類(lèi)。舉個(gè)例子

?

???假設(shè)某篇文檔的總詞語(yǔ)數(shù)為100個(gè),而“蜜蜂”出現(xiàn)了5次,那么“蜜蜂”的詞頻就是0.05。如果“蜜蜂”這個(gè)

?? 詞在100份文檔中出現(xiàn),而文檔總數(shù)為1000000,那么逆向文件頻率就是log10(1000000/100)=4。最

?? 后TF-IDF的值為0.05 * 4 = 0.2。具體公式如下

?

???

?

???當(dāng)然在統(tǒng)計(jì)之前必須要過(guò)濾掉文檔中的停用詞。當(dāng)然TF-IDF的精確度有時(shí)候可能不太高,它仍有不足之處,

?? 單純地認(rèn)為文本頻率越小的單詞就越重要,而文本頻率越大的單詞就越無(wú)用,顯然這并不完全正確。

?

?? 接下來(lái)就可以用上面所學(xué)的TF-IDF來(lái)對(duì)文本進(jìn)行特征屬性選擇了。計(jì)算出文檔中每個(gè)詞的TF-IDF的值,然

?? 后按照降序排列,取前面的幾個(gè)詞作為特征屬性。這里由于只取前K大的,有比較優(yōu)秀的算法。

?

?? 在文本分類(lèi)中單純地用TF-IDF來(lái)判斷一個(gè)特征屬性是否具有區(qū)分度是不夠的,原因主要有如下兩個(gè)

?

??(1)沒(méi)有考慮特征詞在類(lèi)間的分布

?

????? 如果一個(gè)特征詞在各個(gè)類(lèi)之間分布都比較均勻,那么這樣的詞對(duì)分類(lèi)沒(méi)有任何貢獻(xiàn);而如果一個(gè)特征

????? 詞集中分布在某個(gè)類(lèi)中,在其它類(lèi)中都出現(xiàn)但是出現(xiàn)的頻率很小很小,那么這個(gè)詞能很好地代表這個(gè)

????? 類(lèi)的特征屬性,TF-IDF不能很好地區(qū)別這兩種情況。

?

??(2)沒(méi)有考慮特征詞在類(lèi)內(nèi)部文檔中的分布

?

????? 在類(lèi)內(nèi)部文檔中,如果特征詞均勻分布在其中,那么這個(gè)特征詞能夠很好地代表這個(gè)類(lèi)的特征,如果

????? 只在幾篇文檔中出現(xiàn),那么不能夠代表這個(gè)類(lèi)的特征。

?

?

2. 信息增益與特征屬性選擇

?

?? 關(guān)于信息增益的概念,在之前的《決策樹(shù)之ID3算法》中已經(jīng)說(shuō)過(guò)。在信息增益中,重要的衡量標(biāo)準(zhǔn)就是

?? 看這個(gè)特征能夠?yàn)榉诸?lèi)系統(tǒng)帶來(lái)多少信息,帶來(lái)的信息越多,那么該特征就越重要。

?

???通過(guò)信息增益選擇的特征屬性只能考察一個(gè)特征對(duì)整個(gè)系統(tǒng)的貢獻(xiàn),而不能具體到某個(gè)類(lèi)別上,這就使得

???它只能做全局特征選擇,即所有的類(lèi)使用相同的特征集合。

?

?

3. 卡方檢驗(yàn)與特征屬性選擇

?

???卡方檢驗(yàn)是數(shù)理統(tǒng)計(jì)中一種常用的檢驗(yàn)兩個(gè)變量是否獨(dú)立的方法。在卡方檢驗(yàn)中使用特征與類(lèi)別間的關(guān)聯(lián)

???性來(lái)進(jìn)行量化,關(guān)聯(lián)性越強(qiáng),特征屬性得分就越高,該特征越應(yīng)該被保留。

?

?? 卡方檢驗(yàn)最基本的思想是觀察實(shí)際值和理論值的偏差來(lái)確定理論的正確性。通常先假設(shè)兩個(gè)變量確實(shí)是獨(dú)

?? 立的,然后觀察實(shí)際值與理論值的偏差程度,如果偏差足夠小,那么就認(rèn)為這兩個(gè)變量確實(shí)是獨(dú)立的,否

?? 則偏差很大,那么就認(rèn)為這兩個(gè)變量是相關(guān)的。

?

?? 在文本特征屬性選擇階段,一般用“詞t與類(lèi)別c不相關(guān)”作出假設(shè),計(jì)算出的卡方值越大,說(shuō)明假設(shè)偏離就

?? 越大,假設(shè)越不正確。文本特征屬性選擇過(guò)程為:計(jì)算每個(gè)詞與類(lèi)別c的卡方值,然后排序取前K大的即可。

?

?? 接下來(lái),就來(lái)學(xué)習(xí)如何計(jì)算卡方值。

?

???假設(shè)個(gè)樣本的觀測(cè)值分別為,它們的均值(期望)為,那么卡方值計(jì)算如下

?

??????????

?

???如果計(jì)算出的值與事先設(shè)定的閥值進(jìn)行比較,如果小于閥值,則原假設(shè)成立,否則原假設(shè)不成立。

?

?? 在文本特征選擇階段,我們關(guān)心的是一個(gè)詞t與一個(gè)類(lèi)別c之間是否獨(dú)立,如果獨(dú)立,則詞t對(duì)類(lèi)別c完全

?? 沒(méi)有表征作用。下面以一個(gè)例子來(lái)推導(dǎo)文本特征選擇中卡方值得計(jì)算公式

?

?? 假設(shè)現(xiàn)在有N篇文檔,其中有M篇是關(guān)于體育的,我們想知道詞“籃球”與類(lèi)別“體育”的相關(guān)性。接下來(lái)設(shè)

?

?????? 包含“籃球”且屬于“體育”類(lèi)別的文檔數(shù)為A

?????? 包含“籃球”但不屬于“體育”類(lèi)別的文檔數(shù)為B

?????? 不包含“籃球”但屬于“體育”類(lèi)別的文檔數(shù)為C

?????? 不包含“籃球”也不屬于“體育”類(lèi)別的文檔數(shù)為D

?

???即得到如下表格

?

???????

?

???那么,很明顯有A + B + C + D = NA + C = M。假設(shè)詞“籃球”與“體育”不相關(guān),那么“籃球”這

?? 個(gè)詞在所有的文檔中以等概率的形式出現(xiàn),這個(gè)概率值接近

?

????????

?

???而屬于“體育”類(lèi)的文章數(shù)為A + C,在這些文檔中,應(yīng)該有

?

????????

?

???篇文章包含“籃球”這個(gè)詞,這是假設(shè)條件下的理論值,而實(shí)際值從表格中可以看出是A,那么偏差為

?

????????

?

???同理,可以計(jì)算出

?

????????

?

???那么繼續(xù)得到

?

???

?

?

???而對(duì)于同一類(lèi)別文檔中的所有詞來(lái)說(shuō),N = A + B + C + D,M = A + C,N - M = B + D

?? 三個(gè)值不變,那么只需要計(jì)算如下值,然后從大到小取前K大的就行了。

?

?????????

?

???卡方檢驗(yàn)也有缺陷,因?yàn)?strong>A和B在統(tǒng)計(jì)詞t在文章中出沒(méi)出現(xiàn)過(guò),卻不管詞t在文檔中出現(xiàn)了幾次,這

?? 樣的話會(huì)對(duì)低頻詞有所偏袒,甚至?xí)霈F(xiàn)有些情況,一個(gè)詞在一類(lèi)文章的每篇文檔中都只出現(xiàn)了一次,

?? 其卡方值卻大過(guò)了在該類(lèi)文章99%的文檔中出現(xiàn)了10次的詞,其實(shí)后面的詞才是更具代表性的,但只

?? 因?yàn)樗霈F(xiàn)的文檔數(shù)比前面的詞少了“1”,特征選擇的時(shí)候就可能篩掉后面的詞而保留了前者。這就

?? 是開(kāi)方檢驗(yàn)著名的“低頻詞缺陷“。因此開(kāi)方檢驗(yàn)也經(jīng)常同其他因素如詞頻綜合考慮來(lái)?yè)P(yáng)長(zhǎng)避短。

?

?

4. 互信息與特征屬性選擇

?

???接下來(lái),開(kāi)始學(xué)習(xí)互信息與特征選擇,其實(shí)互信息相比前面幾種特征屬性選擇方法來(lái)說(shuō),效果是最差

?? 的。互信息是事件A和事件B發(fā)生相關(guān)聯(lián)而提供的信息量,在處理分類(lèi)問(wèn)題提取特征的時(shí)候就可以用互

?? 信息來(lái)衡量某個(gè)特征和特定類(lèi)別的相關(guān)性,如果信息量越大,那么特征和這個(gè)類(lèi)別的相關(guān)性越大。反

???之也是成立的。計(jì)算方法如下

?

???

?

???低詞頻對(duì)于互信息的影響還是蠻大的,一個(gè)詞如果頻次不夠多,但是又主要出現(xiàn)在某個(gè)類(lèi)別里,那么就

?? 會(huì)出現(xiàn)較高的互信息,從而給篩選帶來(lái)噪音。所以為了避免出現(xiàn)這種情況可以采用先對(duì)詞按照詞頻排序

?? 取然后按照互信息大小進(jìn)行排序,然后再選擇自己想要的詞,這樣就能比較好的解決這個(gè)問(wèn)題。

??

?

推薦文章:http://blog.csdn.net/chl033/article/details/2731701

搜狗語(yǔ)料庫(kù):http://www.sogou.com/labs/dl/c.html

?

總結(jié)

以上是生活随笔為你收集整理的文本特征属性选择的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。