當前位置：首頁 >

查看list的形状_用Wordcloud生成指定形状的词云图

發布時間：2025/3/12 49 豆豆

生活随笔收集整理的這篇文章主要介紹了查看list的形状_用Wordcloud生成指定形状的词云图小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

wordcloud是Python擴展庫中一種將詞語用圖片表達出來的一種形式，通過詞云生成的圖片，我們可以更加直觀的看出某篇文章的故事梗概。

首先貼出一張詞云圖(以哈利波特小說為例)：

在生成詞云圖之前，首先要做一些準備工作

1.安裝結巴分詞庫

pip install jieba

Python中的分詞模塊有很多，他們的功能也都是大同小異，我們安裝的結巴分詞?是當前使用的最多的類型。

下面我來簡單介紹一下結巴分詞的用法

結巴分詞的分詞模式分為三種：

(1)全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度快,但是不能解決歧義問題

(2)精確模式:將句子最精確地切開,適合文本分析

(3)搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞

下面用一個簡單的例子來看一下三種模式的分詞區別：

import jieba# 全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度快,但是不能解決歧義問題text = "哈利波特是一常優秀的文學作品"seg_list = jieba.cut(text, cut_all=True)print(u"[全模式]: ", "/ ".join(seg_list))# 精確模式:將句子最精確地切開,適合文本分析seg_list = jieba.cut(text, cut_all=False)print(u"[精確模式]: ", "/ ".join(seg_list))# 默認是精確模式seg_list = jieba.cut(text)print(u"[默認模式]: ", "/ ".join(seg_list))# 搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞seg_list = jieba.cut_for_search(text)print(u"[搜索引擎模式]: ", "/ ".join(seg_list))

下面是對這句話的分詞方式：

通過這三種分詞模式可以看出，這些分詞模式并沒有很好的劃分出“哈利波特”這個專有名詞，這是因為在結巴分詞的字典中并沒有記錄這個名詞，所以需要我們手動添加自定義字典。

添加自定義字典：找一個方便引用的位置(下圖的路徑是我安裝的位置)，新建文本文檔(后綴名為.txt)，將想添加的詞輸入進去(注意輸入格式)，保存并退出。

在上面的代碼中加入自定義字典的路徑，再點擊運行。

jieba.load_userdict("/home/jmhao/anaconda3/lib/python3.7/site-packages/jieba/mydict.txt")

分詞結果，可以看出“哈利波特”這個詞已經被識別出來了。

結巴分詞還有另一個禁用詞的輸出結果。

stopwords = {}.fromkeys(['優秀', '文學作品'])#添加禁用詞之后seg_list = jieba.cut(text)final = ''for seg in seg_list:if seg not in stopwords:final += segseg_list_new = jieba.cut(final)print(u"[切割之后]: ", "/ ".join(seg_list_new))

可以看到輸出結果中并沒有“優秀”和“文學作品”兩個詞

結巴分詞還有很多比較復雜的操作，具體的可以去官網查看，我就不再過多的贅述了。

下面我們正式開始詞云的制作。

首先下載模塊，這里我所使用的環境是Anaconda，由于Anaconda中包含很多常用的擴展包，所以這里只需要下載wordcloud。若使用的環境不是Anaconda，則另需安裝numpy和PIL模塊。

pip install wordcloud

然后我們需要找一篇文章并使用結巴分詞將文章分成詞語的形式。

# 分詞模塊def cut(text):# 選擇分詞模式word_list = jieba.cut(text,cut_all= True)# 分詞后在單獨個體之間加上空格result = " ".join(word_list)# 返回分詞結果return result

這里我在當前文件夾下創建了一個文本文檔“xiaoshuo.txt”，并復制了一章的小說作為詞云的主體文字。

使用代碼控制，打開并讀取小說的內容

#導入文本文件,進行分詞,制作詞云with open("xiaoshuo.txt") as fp:text = fp.read()# 將讀取的中文文檔進行分詞text = cut(text)

在網上找到一張白色背景的圖片下載到當前文件夾，作為詞云的背景圖(若不指定圖片，則默認生成矩形詞云)

#設置詞云形狀，若設置了詞云的形狀，生成的詞云與圖片保持一致，后面設置的寬度和高度將默認無效mask = np.array(image.open("monkey.jpeg"))

接下來可以根據喜好來定義詞云的顏色、輪廓等參數下面為常用的參數設置方法

完整代碼

#導入詞云庫from wordcloud import WordCloud#導入圖像處理庫import PIL.Image as image#導入數據處理庫import numpy as np#導入結巴分詞庫import jieba# 分詞模塊def cut(text):# 選擇分詞模式word_list = jieba.cut(text,cut_all= True)# 分詞后在單獨個體之間加上空格result = " ".join(word_list)return result#導入文本文件,進行分詞,制作詞云with open("xiaoshuo.txt") as fp:text = fp.read()# 將讀取的中文文檔進行分詞text = cut(text)#設置詞云形狀mask = np.array(image.open("monkey.jpeg"))#自定義詞云wordcloud = WordCloud(# 遮罩層,除白色背景外,其余圖層全部繪制(之前設置的寬高無效)mask=mask,#默認黑色背景,更改為白色background_color='#FFFFFF',#按照比例擴大或縮小畫布scale=,# 若想生成中文字體,需添加中文字體路徑font_path="/usr/share/fonts/bb5828/逐浪雅宋體.otf").generate(text)#返回對象image_produce = wordcloud.to_image()#保存圖片wordcloud.to_file("new_wordcloud.jpg")#顯示圖像image_produce.show()

注：若想要生成圖片樣式的詞云圖，找到的圖片背景必須為白色，或者使用Photoshop摳圖替換成白色背景，否則生成的詞云為矩形

我的詞云原圖：

生成的詞云圖：

- END -

文源網絡，僅供學習之用，如有侵權，聯系刪除。往期精彩

◆ ?50款開源工具你都用過嗎？

◆ ?你知道Python的就業方向和薪資嗎？(贈學習資料)

◆ ?python網絡爬蟲的基本原理詳解

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的查看list的形状_用Wordcloud生成指定形状的词云图的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：直接修改html文本页面没变化,VUE
下一篇： # 解析bt文件_BT、磁力链这些词语是

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

查看list的形状_用Wordcloud生成指定形状的词云图

總結