文献记录(part17)--VARCLUST: clustering variables using dimensionality reduction
學習筆記,僅供參考,有錯必究
關鍵詞:子空間聚類,降維,主成分分析,貝葉斯信息準則,k-centroids
VARCLUST: clustering variables using dimensionality reduction
摘要
在假設給定聚類中的變量是被隨機噪聲破壞的少量隱藏潛在變量的線性組合的情況下,提出了用于聚類變量的VARCLUST算法。整個聚類任務被視為統計模型的選擇問題,統計模型由聚類的數量、變量在這些聚類中的劃分以及“聚類維數”,即跨越每個聚類的線性子空間的維數向量來定義。使用基于拉普拉斯近似的近似貝葉斯準則,并使用關于聚類數目的非信息均勻先驗來選擇“最優”模型。為了解決在可能模型的巨大空間上搜索的問題,我們提出了[36,8]的ClustOfVar算法的擴展,該算法專用于僅一維的子空間,并且在結構上類似于K-質心算法。
我們提供一套完整的方法論,包括理論保證、廣泛的數值實驗、完整的數據分析和實施。我們的算法基于一致貝葉斯信息準則(BIC)將變量分配給適當的聚類,并通過[29]的懲罰半積分似然準則(PESEL)估計每個聚類的維數,我們證明了該準則的一致性。
此外,我們還證明了我們算法的每次迭代都會導致模型后驗概率的拉普拉斯近似的增加,并為聚類數的估計提供了準則。
與其他算法的數值比較表明,在稀疏子空間聚類方面,VARCLUST可能優于一些流行的機器學習工具。我們還報告了包括TCGA乳腺癌數據和氣象數據在內的真實數據分析結果,結果
總結
以上是生活随笔為你收集整理的文献记录(part17)--VARCLUST: clustering variables using dimensionality reduction的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文献记录(part16)--Learni
- 下一篇: 今日代码(20210225)--数据处理