dp聚类算法_【深度】基于残差分析的混合属性数据聚类算法
智慧起航,共創未來
聚類分析在醫學、圖像分割、生物學、電子商務、互聯網等領域得到了廣泛應用。在實際應用環境中,被聚類的數據通常含有數值屬性和分類屬性,例如醫學檢測報告不僅有血壓、脈搏等數值屬性,而且還存在性別、婚姻狀況、疾病定性檢驗結果等分類屬性。現有聚類算法大部分只能對數值屬性數據聚類,不能對混合屬性數據聚類,如K-means、FCM、DPC、CLUB等。為了解決混合屬性數據聚類問題,學者們提出了一些混合屬性數據聚類算法,如K-prototypes、EKP、IKP-MD、FKP-MD、DP-MD-FN,但在沒有先驗知識的情況下,這些算法難于確定聚類個數和選取合適的聚類中心。造成聚類精度不高,如何準確地確定聚類中心和聚類個數成為混合屬性數據聚類領域亟待解決的問題。
邱保志, 張瑞霖, 李向麗. 基于殘差分析的混合屬性數據聚類算法. 自動化學報, 2020, 46(7): 1420-1432
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c180030
以K-means為代表的基于劃分的聚類算法以選取的初始聚類中心為基礎,依據相似性將其余對象分配給相應的中心形成聚類,通過反復計算新的聚類中心和再分配,直至目標函數收斂為止,形成最終聚類。這種聚類中心計算方式和分配機制決定了這一類算法不能有效地處理非球形簇。DPC算法以局部密度峰值點為中心,中心周圍低密度點的集合形成了以該峰值點為中心的一個聚類,其結構簡單、易于理解。但聚類中心的選取需要人為參與,在缺少先驗知識的情況下,算法的參數難以確定。CLUB算法通過k近鄰建立密度骨架,并以此作為聚類的中心,將未標記的對象劃歸到距離最近的高密度對象所在的簇中形成聚類,有效的解決了橋接和同一個簇中出現多個聚類中心而導致錯誤劃分的問題.但該算法只能處理數值屬性數據集,并不能對混合屬性數據進行聚類。
為了解決混合屬性數據聚類問題,K-prototypes、EKP、IKP-MD、FKP-MD等算法以K-means聚類思想為基礎,通過重定義相似性度量和改進聚類中心計算方式進行聚類,解決了K-means不能對混合屬性數據聚類的問題。DP-MD-FN算法應用密度峰值技術和閾值截斷方法對混合屬性進行聚類,實現了聚類中心自動選取,但算法的參數魯棒性較低。對混合屬性數據聚類來說,如何降低聚類中心提取的偏差和更真實的反映數據的分布情況是提高聚類精度的關鍵問題。
針對混合屬性數據聚類結果精度不高、聚類結果對參數敏感等問題,提出了基于殘差分析的混合屬性數據聚類算法(Clustering algorithm for mixed data based on Residual Analysis)RA-Clust。算法以改進的熵權重混合屬性相似性度量對象間的相似性,以提出的基于KNN和Parzen窗的局部密度計算方法計算對象的密度,通過線性回歸和殘差分析進行聚類中心預選取,然后以提出的聚類中心目標優化模型確定真正的聚類中心,最后將其它對象按照距離高密度對象的最小距離劃分到相應的簇中,形成最終聚類。在合成數據集和UCI數據集上的實驗結果驗證了算法的有效性.與同類算法相比,RA-Clust具有較高的聚類精度和魯棒性。論文創新點如下:
1. 改進了混合屬性數據的相似性度量;
2. 提出了一種基于KNN和Parzen窗的局部密度計算方法;
3. 提出了基于線性回歸和殘差分析的聚類中心預選取機制及聚類中心目標優化模型。
實驗數據集以及部分實驗結果如表1、2、3、4。
作者簡介:
邱保志:
鄭州大學信息工程學院教授。主要研究方向為數據庫,先進智能系統,數據挖掘。
E-mail: iebzqiu@zzu.edu.cn
張瑞霖:
哈爾濱工業大學博士研究生。主要研究方向為數據挖掘和機器學習。本文通信作者。
E-mail: zzurlz@163.com
李向麗:
鄭州大學信息工程學院教授。主要研究方向為計算機網絡,數據挖掘。
E-mail: iexlli@zzu.edu.cn
來源:AAS自動化學報
?2020中國自動化大會? ??
2020中國自動化大會(CAC2020)注冊通道已開啟,點擊圖片查看詳情!
? ?往期文章?? ???
? ? ?【邀請函】2020中國自動化大會展覽邀請函
【重要通知】關于舉辦2020國家智能車發展論壇的通知
【注冊通道開啟】2020國家智能車發展論壇注冊通道開啟,歡迎報名!
【喜報】中國科學院院士、中國自動化學會會士郭雷當選下一屆亞洲控制協會主席
【喜報】祝賀中國自動化學會獲評2020年世界一流科技社團評價四星級社團
? ?聯系我們? ? ??
地址:北京市海淀區中關村東路95號
郵編:100190
電話:010-82544542(綜合)
? ? ? ? ? 010-62522472(會員)
? ? ? ? ? 010-62522248(學術活動)
? ? ? ? ? 010-62624980(財務)
傳真:010-62522248
郵箱:caa@ia.ac.cn
?更多精彩? ?
官方微信公眾號(英文)
名稱:CAA OFFICIAL
微信號:caaofficial
會員微信公眾號?
名稱:CAA會員服務?
微信號:caa-member
總結
以上是生活随笔為你收集整理的dp聚类算法_【深度】基于残差分析的混合属性数据聚类算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux系统中查看图片信息
- 下一篇: MATLAB函数记录