python生成词云很慢吗_词云制作没那么难,Python 10 行代码就实现了!
寫在前面
想必大家有一個(gè)問(wèn)題。什么是詞云呢?
詞云又叫名字云,是對(duì)文本數(shù)據(jù)中出現(xiàn)頻率較高的“關(guān)鍵詞”在視覺(jué)上的突出呈現(xiàn),形成關(guān)鍵詞的渲染形成類似云一樣的彩色圖片,從而一眼就可以領(lǐng)略文本數(shù)據(jù)的主要表達(dá)意思。、
網(wǎng)頁(yè)上有許多詞云的效果圖:
而且,目前有許多制作詞云的工具:
但是作為一個(gè)學(xué)習(xí)Python的程序員來(lái)說(shuō),我更喜歡通過(guò)自己的編程去解決問(wèn)題。
而且用Python制作詞云只需十行代碼就行了哦~
一起來(lái)看看吧!
代碼塊import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
text_from_file_with_apath = open('/Users/hecom/23tips.txt').read()
wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)
wl_space_split = " ".join(wordlist_after_jieba)
my_wordcloud = WordCloud().generate(wl_space_split)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
代碼效果圖:
下面咱們解析一下代碼塊:1~3 行分別導(dǎo)入了畫圖的庫(kù),詞云生成庫(kù)和jieba的分詞庫(kù);
4 行是讀取本地的文件,代碼中使用的文本是本公眾號(hào)中的《老曹眼中研發(fā)管理二三事》。
5~6 行使用jieba進(jìn)行分詞,并對(duì)分詞的結(jié)果以空格隔開(kāi);
7行對(duì)分詞后的文本生成詞云;
8~10行用pyplot展示詞云圖。
這是我喜歡python的一個(gè)原因吧,簡(jiǎn)潔明快。
當(dāng)然,這只是一個(gè)簡(jiǎn)單得不能再簡(jiǎn)單得編程,實(shí)現(xiàn)的效果也非常簡(jiǎn)單
但是Python是一門開(kāi)源的語(yǔ)言,這時(shí)候就體現(xiàn)出開(kāi)源的特性了,任何人都能對(duì)一個(gè)項(xiàng)目加以修改,使項(xiàng)目不斷的完善。
Github上有許多開(kāi)源的項(xiàng)目,小編找到一個(gè)做詞云的項(xiàng)目,鏈接如下:
咱們可以直接進(jìn)入wordcloud.py 源碼進(jìn)行字體,詞云效果進(jìn)行修改。
源碼解析:
wordcloud.py總共不過(guò)600行,其間有著大量的注釋,讀起來(lái)很方便。其中用到了較多的庫(kù),常見(jiàn)的random,os,sys,re(正則)和可愛(ài)的numpy,還采用了PIL繪圖,估計(jì)一些人又會(huì)遇到安裝PIL的那些坑.
生產(chǎn)詞云的原理其實(shí)并不復(fù)雜,大體分成5步:對(duì)文本數(shù)據(jù)進(jìn)行分詞,也是眾多NLP文本處理的第一步,對(duì)于wordcloud中的process_text()方法,主要是停詞的處理
計(jì)算每個(gè)詞在文本中出現(xiàn)的頻率,生成一個(gè)哈希表。詞頻計(jì)算相當(dāng)于各種分布式計(jì)算平臺(tái)的第一案例wordcount, 和各種語(yǔ)言的hello world 程序具有相同的地位了,呵呵。
根據(jù)詞頻的數(shù)值按比例生成一個(gè)圖片的布局,類IntegralOccupancyMap 是該詞云的算法所在,是詞云的數(shù)據(jù)可視化方式的核心。
將詞按對(duì)應(yīng)的詞頻在詞云布局圖上生成圖片,核心方法是generate_from_frequencies,不論是generate()還是generate_from_text()都最終到generate_from_frequencies
完成詞云上各詞的著色,默認(rèn)是隨機(jī)著色
詞語(yǔ)的各種增強(qiáng)功能大都可以通過(guò)wordcloud的構(gòu)造函數(shù)實(shí)現(xiàn),里面提供了22個(gè)參數(shù),還可以自行擴(kuò)展。
效果圖:
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的python生成词云很慢吗_词云制作没那么难,Python 10 行代码就实现了!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 如何判断两物体加速度相等_高中物理:速度
- 下一篇: 白钢条用什么可以切割_错怪李佳琦了!原来