特征提取 notes
特征獲取
??? 從N個特征集合中選擇M個特征的子集, 并滿足M<=N
??? 1, 特征提取:是一種變換,將處于高位空間的樣本通過映射或變換的方式轉(zhuǎn)換到低維空間,達到降維目的
??? 2, 特征選擇:從一組特征中去除冗余或不相關(guān)的特征來降維
??? 二者通常結(jié)合使用, 如先映射到低維空間、再去除冗余和不相關(guān)特征
???
特征獲取的兩個問題
??? 1, 確定選擇算法: 在允許時間內(nèi), 找出最小的、最能描述類別的特征組合
??? 2, 確定評價標準: 衡量特征組合是否最優(yōu),得到特征獲取操作的停止條件
??? 因此, 通常步驟是先產(chǎn)生特征子集,再評價; 如果滿足停止條件則完畢, 否則再次產(chǎn)生特征子集重復(fù)。
???
特征提取
??? 窮舉法, 復(fù)雜度為指數(shù)級, 肯定能得到最優(yōu)子集; 實用性不強
??????? 完備集
??????????? 遍歷所有特征集
??????????? 廣度優(yōu)先
??????? 非完備集
??????????? 分支定界
??????????? 最好優(yōu)先
??? 啟發(fā)方法, 近似算法, 復(fù)雜度N^2
??????? 向前選擇
??????? 向后選擇
??????? 組合選擇
??????? 基于實例
??? 隨機方法, 復(fù)雜度指數(shù)級,但能設(shè)置迭代次數(shù)。 常用有LasVegasFilter, 遺傳算法, 模擬退火
??????? 完全隨機
??????? 概率隨機
特征提取, 算法的另一種分類
??? 最優(yōu)搜索
??????? 窮舉
??????? 分支定界 branch and bound
??? 次優(yōu)搜索
??????? 單獨最優(yōu)特征組合
??????? 順序前進。 選擇最優(yōu)特征, 選擇剩下特征中的最優(yōu)特征, 持續(xù)至結(jié)束
??????? 順序后退。 刪掉最差特征, 刪掉剩下特征中的最差特征, 持續(xù)至結(jié)束
??????? 增l減r。 先增加l個最優(yōu)特征, 然后再從特征子集中刪掉r個最差特征; 持續(xù)至結(jié)束
??????? 其他
??????????? 模擬退火
??????????? Tabu搜索
??????????? 遺傳算法
???????
評價標準
??? 1, 通過分類結(jié)果來比較特征選擇結(jié)果:選擇使分類器的錯誤概率最小的特征或者特征組合。 計算量打、實用性差
??? 2, 基于評價函數(shù)來進行特征選擇
??????? 距離度量:樣本之間距離越小越相似, 越大越可分。 不能處理各類交疊的情況
??????????? 歐式距離
??????????? S階Minkowski測度
??????????? Chebychev距離
??????? 概率距離測度
??????? 信息測度: 利用具有最小不確定性的哪些特征來分類最有利
??????????? Shannon熵
??????????? Renyi熵
??????????? 條件熵
??????? 相關(guān)性測度
??????? 一致性測度???????
評價函數(shù)根據(jù)其實現(xiàn)原理分為2類, filter和wrapper
??????? filter:分析特征子集內(nèi)部的信息來衡量該特征子集的好壞, 比如特征見的相互依賴程度。 實質(zhì)上是一種無監(jiān)督方法
??????? wrapper: 采用特征子集對樣本分類, 根據(jù)分類結(jié)果好壞來衡量特征子集好壞。 有監(jiān)督學(xué)習(xí)方法
???????
類別可分離性盤踞滿足的要求
??? 1 與錯誤概率有單調(diào)關(guān)系
??? 2 特征獨立時有可加性
??? 3 具有距離的某些特性
??? 4 對特征數(shù)目單調(diào)不減; 即加入新特征后, 判別值不減
???????
???????
=================================================
評價函數(shù)???? 泛化能力???? 時間復(fù)雜性???? 分類精度
=================================================
距離測度?????? 好???????????? 低
信息測度?????? 好???????????? 低
相關(guān)性測度???? 好???????????? 低
一致性測度???? 好???????????? 中等
=================================================
分類錯誤率???? 差???????????? 高
=================================================
選擇原則
??? 因素:
??????? 數(shù)據(jù)類型:離散型 連續(xù)型 布爾變量
??????? 問題規(guī)模:兩類 多類
??????? 樣本數(shù)量:海量 小樣本
??? 原則:
??????? 1 處理數(shù)據(jù)類型的能力。是否支持離散、連續(xù)或者布爾?
??????? 2 處理問題規(guī)模的能力。某些特征選擇算法不支持多累問題
??????? 3 處理樣本量的能力、特征集大小的能力
??????? 4 對噪聲的容忍能力
??????? 5 無噪聲情況下, 產(chǎn)生穩(wěn)定、最優(yōu)特征子集的能力
???????
特征選擇有很多種方法,比如:互信息、卡方檢驗(χ2 test)、基于頻率的特征選擇。
互信息的方法是計算term t和類別c的期望互信息,期望互信息是term的存在與否能
給類別c的正確判斷帶來的信息量。
卡方檢驗是用來檢驗兩個事件的獨立性,在特征選擇中,它檢驗term的出現(xiàn)和類別的出現(xiàn)是否相互獨立。
基于頻率的特征選擇就是選擇在類別中出現(xiàn)頻率比較高的term。頻率可以定義為文檔頻率(
在類別c中包含t的文檔數(shù))和文檔集頻率(c類別中所有文檔中t出現(xiàn)的總次數(shù))。
文檔頻率適合貝努力模型,而文檔集頻率適合于多項式模型。
?
http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html
http://www.cnblogs.com/heaad/archive/2010/12/20/1911614.html
http://www.cnblogs.com/heaad/archive/2010/12/23/1914725.html
距離函數(shù)
??? http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html
???
應(yīng)用安裝
??? http://www.cnblogs.com/heaad/archive/2010/11/20/1882864.html
???
???
???
均是基于向量空間模型, 每個文檔doc, 均可表示成一組term構(gòu)成的向量
文本分類領(lǐng)域常用特征選擇算法
??? 文檔頻率 DF
??? 信息增益 infomation gain
??? 互信息?? mutual infomation
??? 叉方統(tǒng)計 chi-square
??? 交叉熵
??? 優(yōu)勢率
信息增益
??? IG(t) = -sigmaP(ci)*lg(P(ci)) + P(t)*sigmaP(ci|t)*logP(ci|t) + P(t')*sigmaP(ci|t')*logP(ci|t'), 1<=i<=m
??? IG(T) = H(C) - H(C|T)
??? 其中
??????? -sigmaP(ci)*lg(P(ci)) 是整個分類系統(tǒng)的信息熵;
??????? 信息增益, 針對各個的特征而言, 看該特征t, 整個系統(tǒng)中某些文本由t和整個系統(tǒng)中都沒t的時候信息量各是多少, 兩者的差值就是該特征t給系統(tǒng)帶來的信息量, 即信息增益
??????? 就是說下面兩個命題是等價的。(1) 所有的文本中都沒有出現(xiàn)特征t;(2) 系統(tǒng)雖然包含特征t,但是t的值已經(jīng)固定了。 使用第2中情況表示整個系統(tǒng)不包含t
??????? P(ci) 是第i類文檔在樣本集中出現(xiàn)的概率
??????? P(t) 是包含特征詞t的文檔數(shù)量占全部文檔數(shù)量的比重
??????? P(t') 是不包含特征詞t的文檔數(shù)量占全部文檔數(shù)量的比重
??????? P(ci|t) 是包含了特征詞t的Ci類中的文檔數(shù)量占整個系統(tǒng)中包含了特征詞t的文檔數(shù)量的比重
??????? P(ci|t') 是Ci類中不包含特征詞t的文檔數(shù)量占整個系統(tǒng)中不包含特征詞t的文檔數(shù)量的比重
??????? http://hxraid.javaeye.com/blog/767364
??????? http://wenku.baidu.com/view/3e629c2ced630b1c59eeb58e.html
???????
??????? 信息增益越大, 說明該特征越重要
???????
???????
文檔頻率 :DF TF TF*IDF
??? DF,類內(nèi)包含該特征詞t的文檔數(shù)與類中全部文檔數(shù)的比例, DF(t) = P(ci|t)/P(ci)
??????? 比例太低,認為該詞在該類別中的樣本文檔中出現(xiàn)的次數(shù)太少, 該特征詞對表示類別信息無貢獻, 忽略
??????? 比例太高,認為該詞也不能很好的反應(yīng)類別信息, 忽略
??????? 將剩下的DF排序
???????
???????
互信息 I(X, Y) = H(X) +H(Y) - H(X,Y) = logP(X, Y)/P(X)P(Y), 滿足對稱性; XY獨立時, 互信息量為0
??? 基本假設(shè):在某個特定類別中出現(xiàn)頻率高、但在其他類別中出現(xiàn)頻率低的特征詞, 與該類的互信息比較大
???
??? 平均互信息, MI(Ci, T) = sigma p(Ci, t)* log p(Ci, t)/(p(Ci)*p(t)),? i取值為m個類別, t取值為T的所有可能
????????????? 其中,
??????????????????? t為特征T的每種具體取值
??????????????????? p(Ci, t)為類別Ci中,特征T取值為t的概率
????????????? 由此可以計算出分類系統(tǒng)中, 到底哪個(C,T)的互信息量大
????????????? 互信息量理解為當(dāng)確定某個條件時,原系統(tǒng)減少的信息量
??? http://wenku.baidu.com/view/f4c030d6195f312b3169a5d8.html
??? 互信息是針對不同的主題類分別抽取特征詞!!!
???
交叉熵
??? 也稱KL距離, 反映了類的概率分布和在出現(xiàn)了某特定詞匯的條件下文本類的概率分布之間的距離; 詞匯w的交叉熵越大, 對文本類分布的影響也越大
??? 比信息增益的選擇效果要好
??? 比互信息要差
???
叉方統(tǒng)計量
??? 用于度量特征t與類C之間的獨立性
??? 基本假設(shè):指定類別中出現(xiàn)頻率高的詞語其他類中出現(xiàn)頻率高的詞, 對判定文檔是否屬于該類別都是很有幫助的
??? 叉方統(tǒng)計對于低頻詞來說是不可靠的
??? 特征選擇效果最優(yōu), 分類效果受訓(xùn)練集影響較小, 比較穩(wěn)定
???
??? χ2 ( t , c) =N ×( AD - CB)^2/(( A + C) ×( B + D) ×( A + B) ×( C + D))『2是指2次方』?? 越大表示越相關(guān)
??? 其中, t 表示一個候選特征項; c 表示一個類別;
??? N為訓(xùn)練集中所有實例網(wǎng)頁數(shù);
??? A 為t 和c 同時出現(xiàn)的次數(shù); B 為t 出現(xiàn)而c 沒有出現(xiàn)的次數(shù); C 為c 出現(xiàn)而t 沒有出現(xiàn)的次數(shù); D 為t 和c 都沒有出現(xiàn)的次數(shù)。
??? 對于多分類問題, 針對每個類計算該特征的叉方, 然后取最大值得到針對所有類別的叉方值; 低于閥值的丟棄
???
優(yōu)勢率 Odds Ratio
??? 只用于二元分類
遺傳算法
相對熵
??? 比如利用相對熵進行分類或者是利用相對熵來衡量兩個隨機分布的差距,當(dāng)兩個隨機分布相同時,其相對熵為0.當(dāng)兩個隨機分布的差別增加時,器相對熵也增加。我們下面的實驗是為了橫量概率分布的差異。
??? 方法:
??? D(p//q)=sum(p(x)*log(p(x)/q(x)))。其中p(x)和q(x)為兩個概率分布
??? 約定 0*log(0/q(x))=0;p(x)*log(p(x)/0)=infinity;
??? D(p//q) 與 D(q//p) 無對稱性
??? 主成分分析法 PCA Principal Component Analysis
??? 通過搜索最能代表原數(shù)據(jù)的正交向量,創(chuàng)立一個替換的、較小的變量集來組合屬性的精華,原數(shù)據(jù)可以投影到這個較小的集合。PCA由于其處理方式的不同又分為數(shù)據(jù)方法和矩陣方法。矩陣方法中,所有的數(shù)據(jù)通過計算方差一協(xié)方差結(jié)構(gòu)在矩陣中表示出來,矩陣的實現(xiàn)目標是確定協(xié)方差矩陣的特征向量,它們和原始數(shù)據(jù)的主要成分相對應(yīng)。在主成分方法中,由于矩陣方法的復(fù)雜度在n很大的情況 以二次方增長,因此人們又開發(fā)使用了主要使用Hebbian學(xué)習(xí)規(guī)則的PCA神經(jīng)網(wǎng)絡(luò)方法。
??? http://www.cad.zju.edu.cn/home/chenlu/pca.htm
???
http://blog.sciencenet.cn/home.php?mod=space&uid=67855&do=blog&id=302726???
實驗數(shù)據(jù)顯示,互信息分類效果最差,其次是文檔頻率、CC 統(tǒng)計,CHI 統(tǒng)計分類效果最好??????? ;;cc指相關(guān)系數(shù)
效果排序
??? 信息增益 < 交叉熵 < 互信息 < DF
???
???
重點
??? 交叉熵
??? 互信息
??? 信息增益
??? 叉方
??? 主成分分析
總結(jié)
以上是生活随笔為你收集整理的特征提取 notes的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。