日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

python生成词云很慢吗_词云制作没那么难,Python 10 行代码就实现了!

發(fā)布時(shí)間:2025/6/17 python 89 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python生成词云很慢吗_词云制作没那么难,Python 10 行代码就实现了! 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

寫在前面

想必大家有一個(gè)問(wèn)題。什么是詞云呢?

詞云又叫名字云,是對(duì)文本數(shù)據(jù)中出現(xiàn)頻率較高的“關(guān)鍵詞”在視覺(jué)上的突出呈現(xiàn),形成關(guān)鍵詞的渲染形成類似云一樣的彩色圖片,從而一眼就可以領(lǐng)略文本數(shù)據(jù)的主要表達(dá)意思。、

網(wǎng)頁(yè)上有許多詞云的效果圖:

而且,目前有許多制作詞云的工具:

但是作為一個(gè)學(xué)習(xí)Python的程序員來(lái)說(shuō),我更喜歡通過(guò)自己的編程去解決問(wèn)題。

而且用Python制作詞云只需十行代碼就行了哦~

一起來(lái)看看吧!

代碼塊import matplotlib.pyplot as plt

from wordcloud import WordCloud

import jieba

text_from_file_with_apath = open('/Users/hecom/23tips.txt').read()

wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)

wl_space_split = " ".join(wordlist_after_jieba)

my_wordcloud = WordCloud().generate(wl_space_split)

plt.imshow(my_wordcloud)

plt.axis("off")

plt.show()

代碼效果圖:

下面咱們解析一下代碼塊:1~3 行分別導(dǎo)入了畫圖的庫(kù),詞云生成庫(kù)和jieba的分詞庫(kù);

4 行是讀取本地的文件,代碼中使用的文本是本公眾號(hào)中的《老曹眼中研發(fā)管理二三事》。

5~6 行使用jieba進(jìn)行分詞,并對(duì)分詞的結(jié)果以空格隔開(kāi);

7行對(duì)分詞后的文本生成詞云;

8~10行用pyplot展示詞云圖。

這是我喜歡python的一個(gè)原因吧,簡(jiǎn)潔明快。

當(dāng)然,這只是一個(gè)簡(jiǎn)單得不能再簡(jiǎn)單得編程,實(shí)現(xiàn)的效果也非常簡(jiǎn)單

但是Python是一門開(kāi)源的語(yǔ)言,這時(shí)候就體現(xiàn)出開(kāi)源的特性了,任何人都能對(duì)一個(gè)項(xiàng)目加以修改,使項(xiàng)目不斷的完善。

Github上有許多開(kāi)源的項(xiàng)目,小編找到一個(gè)做詞云的項(xiàng)目,鏈接如下:

咱們可以直接進(jìn)入wordcloud.py 源碼進(jìn)行字體,詞云效果進(jìn)行修改。

源碼解析:

wordcloud.py總共不過(guò)600行,其間有著大量的注釋,讀起來(lái)很方便。其中用到了較多的庫(kù),常見(jiàn)的random,os,sys,re(正則)和可愛(ài)的numpy,還采用了PIL繪圖,估計(jì)一些人又會(huì)遇到安裝PIL的那些坑.

生產(chǎn)詞云的原理其實(shí)并不復(fù)雜,大體分成5步:對(duì)文本數(shù)據(jù)進(jìn)行分詞,也是眾多NLP文本處理的第一步,對(duì)于wordcloud中的process_text()方法,主要是停詞的處理

計(jì)算每個(gè)詞在文本中出現(xiàn)的頻率,生成一個(gè)哈希表。詞頻計(jì)算相當(dāng)于各種分布式計(jì)算平臺(tái)的第一案例wordcount, 和各種語(yǔ)言的hello world 程序具有相同的地位了,呵呵。

根據(jù)詞頻的數(shù)值按比例生成一個(gè)圖片的布局,類IntegralOccupancyMap 是該詞云的算法所在,是詞云的數(shù)據(jù)可視化方式的核心。

將詞按對(duì)應(yīng)的詞頻在詞云布局圖上生成圖片,核心方法是generate_from_frequencies,不論是generate()還是generate_from_text()都最終到generate_from_frequencies

完成詞云上各詞的著色,默認(rèn)是隨機(jī)著色

詞語(yǔ)的各種增強(qiáng)功能大都可以通過(guò)wordcloud的構(gòu)造函數(shù)實(shí)現(xiàn),里面提供了22個(gè)參數(shù),還可以自行擴(kuò)展。

效果圖:

《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的python生成词云很慢吗_词云制作没那么难,Python 10 行代码就实现了!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。