机器学习之聚类概述
什么是聚類
聚類就是對大量未知標(biāo)注的數(shù)據(jù)集,按照數(shù)據(jù) 內(nèi)部存在的數(shù)據(jù)特征 將數(shù)據(jù)集劃分為 多個不同的類別 ,使 類別內(nèi)的數(shù)據(jù)比較相似,類別之間的數(shù)據(jù)相似度比較小;屬于 無監(jiān)督學(xué)習(xí)。
聚類算法的重點是計算樣本項之間的 相似度,有時候也稱為樣本間的 距離。
和分類算法的區(qū)別:
- 分類算法是有監(jiān)督學(xué)習(xí),基于有標(biāo)注的歷史數(shù)據(jù)進行算法模型構(gòu)建
- 聚類算法是無監(jiān)督學(xué)習(xí),數(shù)據(jù)集中的數(shù)據(jù)是沒有標(biāo)注的
有個成語到“物以類聚”,說的就是聚類的概念。直白來講,就是把認(rèn)為是一類的物體聚在一起,也就是歸為一類(聚在一起的叫一個 簇)。
聚類的思想
給定一個有M個對象的數(shù)據(jù)集,構(gòu)建一個具有k個 簇 的模型,其中k<=M(這是肯定的,不可能有3個對象,我劃分成4個類吧)。滿足以下條件:
- 每個簇至少包含一個對象
- 每個對象屬于且僅屬于一個簇
- 將滿足上述條件的k個簇成為一個合理的聚類劃分
總的一個思路就是:對于給定的類別數(shù)目k,首先給定初始劃分,通過迭代改變樣本和簇的隸屬關(guān)系,使的每次處理后得到的劃分方式 比上一次的好 (總的數(shù)據(jù)集之間的距離和變小了)
相似度/距離公式
上面一直提到什么相似度或距離,特征空間中兩個實例點的距離就是兩個實例點相似程度的反映。我們也經(jīng)常用到歐式距離,除此之外還有哪些,這里羅列一些相關(guān)公式,因為好多不常用,所以只做簡要介紹,或者僅僅提及一下。
1. 閔可夫斯基距離(Minkowski),也叫范式
對于兩個 n 維的數(shù)據(jù) X,Y?
?這里 ?
也就是先求各維度的差值,然后把這些差值都取 p 次方,接著累加起來,最后把累加的結(jié)果開p次方。
(1) 當(dāng) p=1 p=1p=1 時,稱為曼哈頓距離( Manhattan distance,也稱為曼哈頓城市距離),也叫1范式,即
以兩維的數(shù)據(jù)為例:
上面的圖就像我們的城市公路,比如說從左下角到右上角,我們可以按紅線(就是兩點間的曼哈頓距離)、藍線或黃線走,最終都可等效成紅線。而綠線就是下面說的歐氏距離。
(2)當(dāng) p=2 p=2p=2 時,稱為歐氏距離 (Euclidean distance) ,也叫2范式,即
(3)當(dāng) p=∞? 時,稱為切比雪夫距離(Chebyshev distance)
也就是上圖中,如果橫軸的差值大于縱軸的差值,則就為紅線中的橫線部分;反之就是縱線部分。即,只關(guān)心主要的,忽略次要的。
2 . 標(biāo)準(zhǔn)化歐式距離(Standardized Euclidean Distance)
這是進行標(biāo)準(zhǔn)化,在數(shù)據(jù)處理時經(jīng)常用到。s 表示方差,
標(biāo)準(zhǔn)的歐式距離?
?
3 . 夾角余弦相似度(Cosine)
其實就是利用了我們中學(xué)所學(xué)的余弦定理。
4 . KL距離(相對熵)
KL距離在信息檢索領(lǐng)域,以及自然語言方面有重要的運用。具體內(nèi)容可以參考《【ML算法】KL距離》
5 . 杰卡德相似系數(shù)(Jaccard)
目標(biāo)檢測中,經(jīng)常遇到的IOU,就是這種形式。
很顯然,杰卡德距離是用兩個集合中不同元素占所有元素的比例來衡量兩個集合的區(qū)分度。
6 . Pearson相關(guān)系數(shù)
? ??
Pearson相關(guān)系數(shù)是統(tǒng)計學(xué)三大相關(guān)系數(shù)之一,具體內(nèi)容可以參考《如何理解皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)?》
常見聚類算法
常見的算法,按照不同的思想可進行以下劃分,當(dāng)然還會有一些相應(yīng)的優(yōu)化算法,隨后的博客也會一一介紹。
實際中,用的比較多的是劃分聚類,尤其k-means。在古典目標(biāo)識別中,經(jīng)常用到Selective Search(選擇搜索)這種圖像bouding boxes提取算法,本質(zhì)就是層次聚類。
總結(jié)
- 上一篇: 分享【免费】【英语听力】【背单词】练习网
- 下一篇: java-日记本(一)