无监督特征选择算法综述
生活随笔
收集整理的這篇文章主要介紹了
无监督特征选择算法综述
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
無(wú)監(jiān)督特征選擇算法
Filter方法
只使用數(shù)據(jù)的內(nèi)在屬性,不使用聚類等其他輔助方法
速度快
單變量
Information based methods
- 基于距離相似度的熵值作為指標(biāo),進(jìn)行相關(guān)性排序,選擇特征
- 過(guò)其奇異值來(lái)測(cè)量原始數(shù)據(jù)矩陣的熵,評(píng)估每個(gè)特征對(duì)熵的貢獻(xiàn),并根據(jù)它們各自的熵值對(duì)特征進(jìn)行排序。
- 三種選擇最終特征子集的不同方法:簡(jiǎn)單排序、向前選擇和向后消除
- 表示熵是數(shù)據(jù)集中信息壓縮的一種度量
Spectral-similarity based methods
拉普拉斯評(píng)分。在拉普拉斯算子中,特征的重要性通過(guò)其方差和局部保持能力來(lái)評(píng)估,在拉普拉斯算子中,特征的重要性通過(guò)其方差和局部保持能力來(lái)評(píng)估。
多變量
Statistical/information based methods
- 將原始特征集劃分成簇,使得同一簇中的特征高度相似,而不同簇中的特征不相似
- 計(jì)算每個(gè)特征的k-NN特征。然后,選擇具有最緊湊子集的特征,并且丟棄其k-NN最近特征
- 該方法分兩步選擇特征。在該方法中,首先,根據(jù)相關(guān)性度量對(duì)特征進(jìn)行排序。然后,在第二步中,按照在前一步中生成的順序,使用特征相似性度量來(lái)評(píng)估特征,以量化它們之間的冗余度。之后,選擇冗余度最低的前p個(gè)特征。
Bio-inspired methods
- 遺傳算法優(yōu)先選擇高信息素值和低相似性,直到達(dá)到預(yù)先指定的停止標(biāo)準(zhǔn)(迭代次數(shù))。最后,選擇那些具有最高信息素值的特征
tion)
ACO)
Spectral/sparse learning methods
- 結(jié)合SPEC排序和最小冗余最優(yōu)性準(zhǔn)則的特征選擇方法
- 該方法利用對(duì)象之間的相似性,將線性判別分析(LDA)擴(kuò)展到無(wú)監(jiān)督情況(LLDA)。其思路是遞歸地刪除LLDA判別向量絕對(duì)值最小的特征,以識(shí)別可能揭示樣本中聚類的特征。
- 通過(guò)同時(shí)利用離散矩陣和特征相關(guān)性中包含的判別信息進(jìn)行特征選擇。
- 同時(shí)實(shí)現(xiàn)魯棒聚類和魯棒特征選擇。
Wrapper方法
使用聚類算法評(píng)估特征子集
計(jì)算量較大
Sequential methods
Bio-inspired methods
- 一種基于k-means和高斯混合聚類算法的進(jìn)化局部選擇算法,來(lái)搜索特征子集和聚類數(shù)目
Iterative
LLC-fs (Local Learning-based Clustering algorithm with feature selection)
EUFS (Embedded Unsupervised Feature Selection)
- 通過(guò)稀疏學(xué)習(xí)將特征選擇直接嵌入到聚類算法中
DGUFS (Dependence Guided Unsupervised Feature Selection)
Hybrid方法
綜合上面兩種方法,在計(jì)算速度和模型效果之間做一個(gè)折衷
- 該方法從包裝器階段開(kāi)始,通過(guò)在用戶指定的集群范圍內(nèi)的數(shù)據(jù)集上運(yùn)行kmeans聚類算法。采用簡(jiǎn)化輪廓準(zhǔn)則對(duì)聚類進(jìn)行評(píng)價(jià),并選取值最高的聚類。隨后,在濾波階段,利用馬爾可夫方法,通過(guò)貝葉斯網(wǎng)絡(luò)選擇一個(gè)特征子集
常用用于分類和聚類的特征選擇方法
不同領(lǐng)域的特征選擇算法應(yīng)用
總結(jié)
以上是生活随笔為你收集整理的无监督特征选择算法综述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 特征选择算法-Relief
- 下一篇: java8