當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

【Python-ML】SKlearn库原型聚类KMeans

發(fā)布時間：2025/4/16 python 31 豆豆

生活随笔收集整理的這篇文章主要介紹了【Python-ML】SKlearn库原型聚类KMeans 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

# -*- coding: utf-8 -*- ''' Created on 2018年1月25日 @author: Jason.F @summary: 無監(jiān)督聚類學(xué)習(xí)-KMeans算法 ''' import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import make_blobs from sklearn.cluster import KMeans from matplotlib import cm from sklearn.metrics import silhouette_samplesX,y = make_blobs(n_samples=150,n_features=2,centers=3,cluster_std=0.5,shuffle=True,random_state=0) plt.scatter(X[:,0],X[:,1],c='red',marker='o',s=50) plt.grid() plt.show() #簇內(nèi)物產(chǎn)平方和容忍度tol=1e-04 km = KMeans(n_clusters=3,init='random',n_init=10,max_iter=300,tol=1e-04,random_state=0) y_km = km.fit_predict(X) #可視化 plt.scatter(X[y_km==0,0],X[y_km==0,1],s=50,c='lightgreen',marker='s',label='cluster 1') plt.scatter(X[y_km==1,0],X[y_km==1,1],s=50,c='orange',marker='o',label='cluster 2') plt.scatter(X[y_km==2,0],X[y_km==2,1],s=50,c='lightblue',marker='v',label='cluster 3') plt.scatter(km.cluster_centers_[:,0],km.cluster_centers_[:,1],s=250,c='red',marker='*',label='centroids 3') plt.legend() plt.grid() plt.show() ''' KMeans存在簇類k值的先驗(yàn)獲取，可以通過肘部法則確定最佳簇類數(shù)量 KMeans++所選擇初始中心點(diǎn)盡可能遠(yuǎn) ''' print ('Distortion:%.2f'%km.inertia_)#簇內(nèi)誤差平方和 distortions=[] for i in range(1,11):km=KMeans(n_clusters=i,init='k-means++',n_init=10,max_iter=300,random_state=0)km.fit(X)distortions.append(km.inertia_) plt.plot(range(1,11),distortions,marker='o') plt.xlabel('Number of clusters') plt.ylabel('Distortion') plt.show() ''' 輪廓分析使用圖形工具來度量簇中樣本聚集的秘籍成都，通過計算單個樣本的輪廓系數(shù)(silhouette coefficient) ''' km = KMeans(n_clusters=3,init='k-means++',n_init=10,max_iter=300,tol=1e-04,random_state=0) y_km = km.fit_predict(X) cluster_labels = np.unique(y_km) n_clusters = cluster_labels.shape[0] silhouette_vals = silhouette_samples(X, y_km, metric='euclidean') y_ax_lower,y_ax_upper =0,0 yticks =[] for i,c in enumerate(cluster_labels):c_silhouette_vals =silhouette_vals[y_km==c]c_silhouette_vals.sort()y_ax_upper+=len(c_silhouette_vals)color =cm.jet(i/n_clusters)plt.barh(range(y_ax_lower,y_ax_upper),c_silhouette_vals,height=1.0,edgecolor='none',color=color)yticks.append((y_ax_lower+y_ax_upper)/2)y_ax_lower += len(c_silhouette_vals) silhouette_avg = np.mean(silhouette_vals) plt.axvline(silhouette_avg,color='red',linestyle='--') plt.yticks(yticks,cluster_labels+1) plt.ylabel('Cluster') plt.xlabel('Silhouette coefficient') plt.show()

結(jié)果：

Distortion:72.48

總結(jié)

以上是生活随笔為你收集整理的【Python-ML】SKlearn库原型聚类KMeans的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【Python-ML】SKlearn库非
下一篇：【Python-ML】SKlearn库层