数据挖掘导论读书笔记9聚类分析
1. 聚類(lèi)分析僅根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對(duì)象及其關(guān)系的信息,將數(shù)據(jù)對(duì)象分組。
其目標(biāo)是組內(nèi)的對(duì)象相互之間是相似的或者相關(guān)的,而不同組中的對(duì)象是不同的或者不相關(guān)的。
2.聚類(lèi)分析的重要技術(shù)
? ?K均值:K均值是基于原型的、劃分的聚類(lèi)技術(shù)。它試圖發(fā)現(xiàn)用戶指定個(gè)數(shù)k的簇(由質(zhì)心代表)
| 鄰近度函數(shù) | 質(zhì)心 | 目標(biāo)函數(shù) |
| 曼哈頓距離L1 | 中位數(shù) | 最小化對(duì)象到其簇質(zhì)心的L1距離和 |
| 平方歐幾里得距離L2平方 | 均值 | 最小化對(duì)象到其簇質(zhì)心的L2距離的平方和 |
| 余弦 | 均值 | 最大化對(duì)象與其簇質(zhì)心的余弦相似度和 |
| Bregman散度 | 均值 | 最小化對(duì)象到其簇質(zhì)心的Bregman散度和 |
SSE(Sum of Squared Error)誤差的平方和
? 凝聚的層次聚類(lèi):
層次聚類(lèi)常常使用樹(shù)狀圖dendrogram,對(duì)于二維點(diǎn)的聚合,層次聚類(lèi)也可以使用嵌套簇圖。
? ? ? ?單璉:MIN??全璉:MAX? 組平均:GROUP AVERAGE
Ward方法:兩個(gè)簇的鄰近度定義為兩個(gè)簇合并時(shí)導(dǎo)致的平方誤差的增量。
? ? ? ?簇鄰近度的LANCE-WILLIAMS公式
? DBSCAN:是一種簡(jiǎn)單、有效的基于密度的聚類(lèi)算法。
核心點(diǎn)
邊界點(diǎn)
噪聲點(diǎn)
3.簇評(píng)估
非監(jiān)督簇評(píng)估
簇的凝聚性(緊湊性,緊致性)度量確定簇中對(duì)象如何密切相關(guān)
簇的分離線度量確定某個(gè)簇中不同于其他簇的地方。?
非監(jiān)督簇評(píng)估:使用臨近度矩陣
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/p/9698118.html
總結(jié)
以上是生活随笔為你收集整理的数据挖掘导论读书笔记9聚类分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 肖仰华:基于知识图谱的用户理解
- 下一篇: 今日头条算法原理