日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python文本聚类分析_python机器学习kmeans算法——对文本进行聚类分析

發布時間:2024/7/23 python 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python文本聚类分析_python机器学习kmeans算法——对文本进行聚类分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

#!/usr/bin/env python#-*- coding: utf-8 -*-#@File : kmeans.py#@Author: 田智凱#@Date : 2020/3/19#@Desc :機器學習kmeans算法,對科技成果項目進行聚類分析

from __future__ importprint_functionimporttimefrom sklearn.feature_extraction.text importTfidfVectorizerimportmatplotlib.pyplot as pltfrom sklearn.cluster importKMeans, MiniBatchKMeansimportpymssql#讀取sqlserver數據庫

defget_dbdata():

conn_read= pymssql.connect("127.0.0.1", "sa", "###", "test", charset="GBK")

dataset=[]

sql= "select guanjianci from julei_test"cursor=conn_read.cursor()

cursor.execute(sql)

data_count=0for line incursor:

data_count+=1dataset.append(line[0])

cursor.close()

conn_read.close()print(dataset)returndatasetdef transform(dataset, n_features=1000):

vectorizer= TfidfVectorizer(max_df=0.5, max_features=n_features, min_df=2, use_idf=True)

X=vectorizer.fit_transform(dataset)returnX, vectorizerdef train(X, vectorizer, true_k=10, minibatch=False, showLable=False):#使用采樣數據還是原始數據訓練k-means,

ifminibatch:

km= MiniBatchKMeans(n_clusters=true_k, init='k-means++', n_init=1,

init_size=1000, batch_size=1000, verbose=False)else:

km= KMeans(n_clusters=true_k, init='k-means++', max_iter=300, n_init=1,

verbose=False)

km.fit(X)ifshowLable:print("Top terms per cluster:")

order_centroids= km.cluster_centers_.argsort()[:, ::-1]

terms=vectorizer.get_feature_names()print(vectorizer.get_stop_words())for i inrange(true_k):print("Cluster %d:" % i, end='')for ind in order_centroids[i, :10]:print('%s' % terms[ind], end='')print()

result=list(km.predict(X))print('Cluster distribution:')print(dict([(i, result.count(i)) for i inresult]))return -km.score(X)#指定簇的個數k

defk_determin():'''測試選擇最優參數'''dataset=get_dbdata()print("%d documents" %len(dataset))

X, vectorizer= transform(dataset, n_features=500)

true_ks=[]

scores=[]#中心點的個數從3到200(根據自己的數據量改寫)

for i in range(3, 200, 1):

score= train(X, vectorizer, true_k=i) /len(dataset)print(i, score)

true_ks.append(i)

scores.append(score)

plt.figure(figsize=(8, 4))

plt.plot(true_ks, scores, label="error", color="red", linewidth=1)

plt.xlabel("n_features")

plt.ylabel("error")

plt.legend()

plt.show()defmain():'''在最優參數下輸出聚類結果'''dataset=get_dbdata()

X, vectorizer= transform(dataset, n_features=500)

score= train(X, vectorizer, true_k=25, showLable=True) /len(dataset)print(score)if __name__ == '__main__':

start=time.time()#k_determin()#先確定k值

main()

end=time.time()print('程序運行時間',end-start)

總結

以上是生活随笔為你收集整理的python文本聚类分析_python机器学习kmeans算法——对文本进行聚类分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 91国产视频在线播放 | 天天射日日 | 久久久999精品视频 国产在线xx | 黄色一大片 | xiuxiuavnet | 特级西西444www大胆免费看 | 无码少妇精品一区二区免费动态 | 成人黄色在线免费观看 | ktv做爰视频一区二区 | 中文 日韩 欧美 | 91国产在线播放 | 少妇无套内谢久久久久 | 夜夜综合网 | 久久久噜噜噜久久久 | 久久奇米 | 在线观看av资源 | 午夜久久剧场 | 波多野结衣福利 | 九九亚洲视频 | 国产在线a视频 | 中文字幕有码在线 | 亚色在线观看 | 国产无码精品在线播放 | 狠狠操天天操夜夜操 | 三级国产三级在线 | 手机av观看 | 欧美与黑人午夜性猛交久久久 | 国产黑丝在线观看 | 亚洲大片免费观看 | 国产电影一区二区三区 | 亚洲成人精品视频 | 中文字幕人成 | 国产福利视频导航 | 中文字幕 国产精品 | 亚洲AV成人无码久久精品巨臀 | 人人爽爽人人 | 污网站在线观看免费 | 性欧美video另类hd尤物 | 三级小说视频 | www.黄色片| 日韩色区 | 另类天堂网 | 国产精品丝袜一区二区 | 精品人妻伦一二三区免费 | 国产精品久久77777 | 大地资源中文第三页 | 免费不卡毛片 | 亚洲视频欧美 | 欧美日韩一区二区三区四区五区 | 免费看女生裸体视频 | 在线观看国产欧美 | 成人av片免费看 | 欧美激情综合网 | 亚洲精品中文字幕在线播放 | 天天干天天添 | 国产精品jizz在线观看老狼 | 亚州欧美 | 中文在线а√天堂 | 成人女同在线观看 | 动漫美女隐私无遮挡 | 天天碰天天摸 | 在线观看亚洲一区 | 免费一级肉体全黄毛片 | 日批视频免费看 | 国产精品久久久亚洲 | 人人妻人人玩人人澡人人爽 | 欧美粗大猛烈老熟妇 | 中日韩男男gay无套 人人草人人干 | 亚洲一区二区精品在线观看 | 国产精品xxxx喷水欧美 | 黑人精品欧美一区二区蜜桃 | 亚洲午夜激情 | 久久精品国产99精品国产亚洲性色 | 亚洲欧洲精品成人久久奇米网 | 91插视频| 久久久久久久久久久网站 | 欧美亚洲二区 | 丁香六月综合 | 中国一区二区视频 | 福利精品在线 | 高清国产在线 | 人人干超碰 | 欧美久久久久久久 | 免费国产a | 在线播放小视频 | 欧美成人久久久免费播放 | 日韩一级伦理片 | 久久精品这里 | 视频一区在线免费观看 | 亚洲另类网站 | 日韩av高清 | 黄色片一区 | 人人妻人人爽人人澡人人精品 | 青青草免费公开视频 | 欧洲人妻丰满av无码久久不卡 | 久久你懂的 | 操日韩| 亚洲综合色视频 | 99毛片|