日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【算法】一个简单的k均值(k-means)原理

發布時間:2025/3/15 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【算法】一个简单的k均值(k-means)原理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

基本思想

通過迭代尋找k個聚類的一種劃分方案,使用這k個聚類的均值來代表相應各類樣本時所得到的總體誤差最小。

一旦給定了類別數目k,k均值就按照平方誤差和最小的原則將所有樣本劃分到指定數目的類中。

k均值(k-means)有時也稱C均值(C-means),屬于非監督學習。

構建方法

  • 給定初始的類別數k
  • 隨機選取k個樣本點作為聚類中心
  • 對剩余樣本計算與k個中心的距離,將其劃分到最近的聚類中心,形成初始的k類
  • 選取樣本y,將其從原始聚類Y中取出,計算取出后Y中誤差平方和的減少量
  • 將樣本y依次放入其他類別中,計算在該類別中的誤差平方和的增加量
  • 如果最小的增加量<減少量,則將樣本y移到最小增加量對應的聚類中,否則y仍在原聚類中
  • 重新計算聚類中心,選取下一個樣本進行迭代

參數 k 選取

k均值的前提是已知聚類數k,當類別數目未知的時候可以采用遍歷的方案:k=1,2,3…。

當然,誤差平方和隨k的增加是減小的,當k的減少幅度突然變慢時,說明這是將原本比較密集的樣本再分開,所以曲線的拐點就是接近最優的聚類數。

但是,實際中往往不會存在明顯的拐點,需要通過實際效果來反饋。

聚類中心選取

1)隨機選取
2)選擇批次距離盡可能遠的K個點(Kmeans++)

首先隨機選擇一個點作為第一個初始類簇中心點,然后選擇距離該點最遠的那個點作為第二個初始類簇中心點,然后再選擇距離前兩個點的最近距離最大的點作為第三個初始類簇的中心點,以此類推,直至選出K個初始類簇中心點。

3)選用層次聚類算法(BIRCH和ROCK)或者Canopy算法進行初始聚類,然后利用這些類簇的中心點作為KMeans算法初始類簇中心點。

參考資料:https://blog.csdn.net/u012197703/article/details/79434005

猜你喜歡:👇🏻
?【算法】一個簡單的ISODATA原理
?【算法】一個簡單的主成分分析(PCA)原理
?【算法】一個簡單的線性判別分析(LDA)原理

總結

以上是生活随笔為你收集整理的【算法】一个简单的k均值(k-means)原理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。