當前位置：首頁 >

文本的特征属性选择

發布時間：2025/3/21 38 豆豆

生活随笔收集整理的這篇文章主要介紹了文本的特征属性选择小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

今天，來學習文本的特征屬性選擇，在機器學習中，特征屬性的選擇通常關系到訓練結果的可靠性，一個好的

特征屬性通常能起到滿意的分類效果。凡是特征選擇，總是在將特征的重要程度量化后再進行選擇，而如何量

化特征的重要性，就成了各種方法間最大的不同。接下來就介紹如何有效地進行文本的特征屬性選擇。

Contents

???1. TF-IDF與特征屬性選擇

?? 2. 信息增益與特征屬性選擇

?? 3. 卡方檢驗與特征屬性選擇

?? 4. 互信息與特征屬性選擇

文本分類作為一種有效的信息檢索和信息過濾的關鍵技術，能按預定義的類別將待分類的文本進行歸類。文本

分類中常用到向量空間模型（VSM），然而高維的向量空間模型嚴重影響了計算機的處理速度，因此需要對文

本的向量進行降維，那么就需要對文本進行特征屬性選擇。

目前在文本分類領域中常用的文本特征屬性選擇算法有：TF-IDF，信息增益，卡方檢驗，互信息等。

1. TF-IDF與特征屬性選擇

?? TF即詞頻（Term Frequency），表示詞條在某個文檔d中出現的頻率。

?? IDF即逆向文件頻率（Inverse Document Frequency），如果包含詞條t的文檔越少，那么IDF值

?? 越大，則說明詞條t具有很好的類別區分能力。

???TF-IDF算法的主要思想是：如果某個詞或短語在某一篇文章中的出現頻率TF越高，而且在其它文章中很

?? 少出現，那么認為此詞或者短語具有很好的類別區分能力，適合用來分類。舉個例子

???假設某篇文檔的總詞語數為100個，而“蜜蜂”出現了5次，那么“蜜蜂”的詞頻就是0.05。如果“蜜蜂”這個

?? 詞在100份文檔中出現，而文檔總數為1000000，那么逆向文件頻率就是log10(1000000/100)=4。最

?? 后TF-IDF的值為0.05 * 4 = 0.2。具體公式如下

???

???當然在統計之前必須要過濾掉文檔中的停用詞。當然TF-IDF的精確度有時候可能不太高，它仍有不足之處，

?? 單純地認為文本頻率越小的單詞就越重要，而文本頻率越大的單詞就越無用，顯然這并不完全正確。

?? 接下來就可以用上面所學的TF-IDF來對文本進行特征屬性選擇了。計算出文檔中每個詞的TF-IDF的值，然

?? 后按照降序排列，取前面的幾個詞作為特征屬性。這里由于只取前K大的，有比較優秀的算法。

?? 在文本分類中單純地用TF-IDF來判斷一個特征屬性是否具有區分度是不夠的，原因主要有如下兩個

??（1）沒有考慮特征詞在類間的分布

????? 如果一個特征詞在各個類之間分布都比較均勻，那么這樣的詞對分類沒有任何貢獻；而如果一個特征

????? 詞集中分布在某個類中，在其它類中都出現但是出現的頻率很小很小，那么這個詞能很好地代表這個

????? 類的特征屬性，但是TF-IDF不能很好地區別這兩種情況。

??（2）沒有考慮特征詞在類內部文檔中的分布

????? 在類內部文檔中，如果特征詞均勻分布在其中，那么這個特征詞能夠很好地代表這個類的特征，如果

????? 只在幾篇文檔中出現，那么不能夠代表這個類的特征。

2. 信息增益與特征屬性選擇

?? 關于信息增益的概念，在之前的《決策樹之ID3算法》中已經說過。在信息增益中，重要的衡量標準就是

?? 看這個特征能夠為分類系統帶來多少信息，帶來的信息越多，那么該特征就越重要。

???通過信息增益選擇的特征屬性只能考察一個特征對整個系統的貢獻，而不能具體到某個類別上，這就使得

???它只能做全局特征選擇，即所有的類使用相同的特征集合。

3. 卡方檢驗與特征屬性選擇

???卡方檢驗是數理統計中一種常用的檢驗兩個變量是否獨立的方法。在卡方檢驗中使用特征與類別間的關聯

???性來進行量化，關聯性越強，特征屬性得分就越高，該特征越應該被保留。

?? 卡方檢驗最基本的思想是觀察實際值和理論值的偏差來確定理論的正確性。通常先假設兩個變量確實是獨

?? 立的，然后觀察實際值與理論值的偏差程度，如果偏差足夠小，那么就認為這兩個變量確實是獨立的，否

?? 則偏差很大，那么就認為這兩個變量是相關的。

?? 在文本特征屬性選擇階段，一般用“詞t與類別c不相關”作出假設，計算出的卡方值越大，說明假設偏離就

?? 越大，假設越不正確。文本特征屬性選擇過程為：計算每個詞與類別c的卡方值，然后排序取前K大的即可。

?? 接下來，就來學習如何計算卡方值。

???假設個樣本的觀測值分別為，它們的均值（期望）為，那么卡方值計算如下

??????????

???如果計算出的值與事先設定的閥值進行比較，如果小于閥值，則原假設成立，否則原假設不成立。

?? 在文本特征選擇階段，我們關心的是一個詞t與一個類別c之間是否獨立，如果獨立，則詞t對類別c完全

?? 沒有表征作用。下面以一個例子來推導文本特征選擇中卡方值得計算公式

?? 假設現在有N篇文檔，其中有M篇是關于體育的，我們想知道詞“籃球”與類別“體育”的相關性。接下來設

?????? 包含“籃球”且屬于“體育”類別的文檔數為A

?????? 包含“籃球”但不屬于“體育”類別的文檔數為B

?????? 不包含“籃球”但屬于“體育”類別的文檔數為C

?????? 不包含“籃球”也不屬于“體育”類別的文檔數為D

???即得到如下表格

???????

???那么，很明顯有A + B + C + D = N，A + C = M。假設詞“籃球”與“體育”不相關，那么“籃球”這

?? 個詞在所有的文檔中以等概率的形式出現，這個概率值接近

????????

???而屬于“體育”類的文章數為A + C，在這些文檔中，應該有

????????

???篇文章包含“籃球”這個詞，這是假設條件下的理論值，而實際值從表格中可以看出是A，那么偏差為

????????

???同理，可以計算出

????????

???那么繼續得到

???

???而對于同一類別文檔中的所有詞來說，N = A + B + C + D，M = A + C，N - M = B + D這

?? 三個值不變，那么只需要計算如下值，然后從大到小取前K大的就行了。

?????????

???卡方檢驗也有缺陷，因為A和B在統計詞t在文章中出沒出現過，卻不管詞t在文檔中出現了幾次，這

?? 樣的話會對低頻詞有所偏袒，甚至會出現有些情況，一個詞在一類文章的每篇文檔中都只出現了一次，

?? 其卡方值卻大過了在該類文章99%的文檔中出現了10次的詞，其實后面的詞才是更具代表性的，但只

?? 因為它出現的文檔數比前面的詞少了“1”，特征選擇的時候就可能篩掉后面的詞而保留了前者。這就

?? 是開方檢驗著名的“低頻詞缺陷“。因此開方檢驗也經常同其他因素如詞頻綜合考慮來揚長避短。

4. 互信息與特征屬性選擇

???接下來，開始學習互信息與特征選擇，其實互信息相比前面幾種特征屬性選擇方法來說，效果是最差

?? 的。互信息是事件A和事件B發生相關聯而提供的信息量，在處理分類問題提取特征的時候就可以用互

?? 信息來衡量某個特征和特定類別的相關性，如果信息量越大，那么特征和這個類別的相關性越大。反

???之也是成立的。計算方法如下

???

???低詞頻對于互信息的影響還是蠻大的，一個詞如果頻次不夠多，但是又主要出現在某個類別里，那么就

?? 會出現較高的互信息，從而給篩選帶來噪音。所以為了避免出現這種情況可以采用先對詞按照詞頻排序

?? 取然后按照互信息大小進行排序，然后再選擇自己想要的詞，這樣就能比較好的解決這個問題。

推薦文章：http://blog.csdn.net/chl033/article/details/2731701

搜狗語料庫：http://www.sogou.com/labs/dl/c.html

總結

以上是生活随笔為你收集整理的文本的特征属性选择的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： filter,map,reduce,ap
下一篇： Kaggle债务违约预测冠军经验分享

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

文本的特征属性选择

總結