日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

Python 爬取生成中文词云以爬取知乎用户属性为例

發(fā)布時間:2025/3/21 python 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python 爬取生成中文词云以爬取知乎用户属性为例 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?

代碼如下:

# -*- coding:utf-8 -*-import requests import pandas as pd import timeimport matplotlib.pyplot as plt from wordcloud import WordCloud import jiebaheader={'authorization':'Bearer 2|1:0|10:1515395885|4:z_c0|92:Mi4xOFQ0UEF3QUFBQUFBRU1LMElhcTVDeVlBQUFCZ0FsVk5MV2xBV3dDLVZPdEhYeGxaclFVeERfMjZvd3lOXzYzd1FB|39008996817966440159b3a15b5f921f7a22b5125eb5a88b37f58f3f459ff7f8','User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36','X-UDID':'ABDCtCGquQuPTtEPSOg35iwD-FA20zJg2ps=', }user_data = [] def get_user_data(page):for i in range(page):url = 'https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset={}&limit=20'.format(i*20) #response = requests.get(url, headers=header).textresponse = requests.get(url, headers=header).json()['data']#['data'] 只有JSON格式中選擇data節(jié)點user_data.extend(response)print('正在爬取%s頁' % str(i+1))time.sleep(1)if __name__=='__main__':get_user_data(10)#pandas 的函數(shù) from_dict()可以直接將一個response變成一個對象#df = pd.DataFrame.from_dict(user_data)#df.to_csv('D:/PythonWorkSpace/TestData/zhihu/user2.csv')df = pd.DataFrame.from_dict(user_data).get('headline')df.to_csv('D:/PythonWorkSpace/TestData/zhihu/headline.txt')text_from_file_with_apath = open('D:/PythonWorkSpace/TestData/zhihu/headline.txt').read()wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all=True)wl_space_split = " ".join(wordlist_after_jieba)my_wordcloud = WordCloud().generate(wl_space_split)plt.imshow(my_wordcloud)plt.axis("off")plt.show()

需要安裝準(zhǔn)備的庫:

pip install?matplotlib
pip install jieba
pip install wordcloud(發(fā)現(xiàn)這方法安裝不成功)

換種安裝方式到?https://github.com/amueller/word_cloud?這里下載庫文件,解壓,然后進(jìn)入到解壓后的文件,按住shift+鼠標(biāo)右鍵?打開命令窗口運行一下命令:

python setup.py install

?然后同樣報錯

?然后我又換了一張安裝方式:
到?http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud?頁面下載所需的wordcloud模塊的whl文件,下載后進(jìn)入存儲該文件的路徑,按照方法一,執(zhí)行“pip install wordcloud-1.3.3-cp36-cp36m-win_amd64.whl”,這樣就會安裝成功。

?

然后生成詞云的代碼如下:

text_from_file_with_apath = open('D:\Python\zhihu\headline.txt','r',encoding='utf-8').read() wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all=True) wl_space_split = " ".join(wordlist_after_jieba)my_wordcloud = WordCloud().generate(wl_space_split)plt.imshow(my_wordcloud) plt.axis("off") plt.show()

但是發(fā)現(xiàn)不顯示中文,這可就頭疼了。
顯示的是一些大大小小的彩色框框。這是因為,我們使用的wordcloud.py中,FONT_PATH的默認(rèn)設(shè)置不識別中文。
仔細(xì)研究之后做了改進(jìn),終于可以正常顯示中文了

text_from_file_with_apath = open('D:\Python\zhihu\headline.txt','r',encoding='utf-8').read() wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all=True) wl_space_split = " ".join(wordlist_after_jieba) #FONT_PATH = os.environ.get("FONT_PATH", os.path.join(os.path.dirname(__file__), "simkai.ttf")) cloud = WordCloud(#設(shè)置字體,不指定就會出現(xiàn)亂碼font_path="simkai.ttf",#設(shè)置背景色background_color='white',#允許最大詞匯max_words=9000,#詞云形狀#mask=color_mask)#.generate(wl_space_split) ## 產(chǎn)生詞云 word_cloud = cloud.generate(wl_space_split) word_cloud.to_file('D:\Python\zhihu\headline.jpg')#將圖片保存到指定文件中 #直接顯示圖片,并且可編輯 # plt.imshow(word_cloud) # plt.axis("off") # plt.show()

  ?

?

坑:

Python讀取文件時經(jīng)常會遇到這樣的錯誤:python3.4 UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 0: illegal multibyte sequence

import codecs,sys
?f = codecs.open("***.txt","r","utf-8")
指明打開文件的編碼方式就可以消除錯誤了

轉(zhuǎn)載于:https://www.cnblogs.com/PeterZhang1520389703/p/8244633.html

總結(jié)

以上是生活随笔為你收集整理的Python 爬取生成中文词云以爬取知乎用户属性为例的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 尹人综合 | 无码国产色欲xxxxx视频 | 波多野在线观看 | 女儿的朋友5中汉字晋通话 欧美成人免费高清视频 | 女人下面喷水视频 | 中文字幕第9页 | 在线观看免费人成视频 | 久久精品人人 | 亚洲国产二区 | 亚洲欧美日韩色图 | 青青草娱乐在线 | 看黄免费网站 | 在线视频日韩欧美 | 久久99久久久久 | 51成人 | 亚日韩在线 | 四虎影视免费永久大全 | 精品国产影院 | 欧美日韩另类在线 | 亚洲精品1区| 另类综合网 | 日本不卡一二三区 | 热久久久久久久 | 五月婷婷深爱 | 国产精品一级无码 | 中文字幕乱妇无码av在线 | 一个人看的毛片 | 国产一级做a爱片久久毛片a | 国产这里只有精品 | www.日本色 | 91精品中文字幕 | 国产麻豆精品久久一二三 | 久久天天东北熟女毛茸茸 | 五月天黄色网 | 国产中文字幕在线观看 | 亚洲天堂av免费在线观看 | 爱爱亚洲 | 国产精品一区二区久久毛片 | 亚洲综合成人在线 | 亚洲视频六区 | 成人欧美一区二区三区黑人 | 九九免费在线视频 | 精品国产伦一区二区三区 | 日韩综合第一页 | 欧美精品大片 | 理论片大全免费理伦片 | 亚洲一区二区三区人妻 | 亚洲av永久无码国产精品久久 | 激情久久久久久久 | 粗大的内捧猛烈进出 | 少妇喷白浆| 亚洲国产精品美女 | 国产成人av电影 | 星空大象mv高清在线观看免费 | 亚洲一区在线观看视频 | 精品无码人妻少妇久久久久久 | 泰剧19禁啪啪无遮挡 | 亚洲av永久无码精品一百度影院 | 一区二区男女 | 偷拍自拍一区 | 毛片久久久久 | 国产又粗又猛又爽又 | 成人精品一区二区三区电影 | 国产精品国产三级国产三级人妇 | 最新黄色av网址 | 麻豆av一区二区三区久久 | 成人1区2区 | 野外性满足hd | 涩涩视频免费在线观看 | 亚洲福利一区二区三区 | 亚洲黄色激情 | 亚洲呦呦 | 东北少妇av | 一级特黄妇女高潮2 | 亚洲网站免费 | www.国产高清 | 日本欧美久久久久免费播放网 | 国产欧美日韩专区 | 色婷婷久久综合中文久久蜜桃av | 精品午夜一区二区三区在线观看 | www毛片| 日韩中文字幕在线播放 | 91桃色在线观看 | 亚洲一区国产 | 日狠狠| 成人看片黄a免费看视频 | wwwxxx欧美| 亚洲精品2区 | 久久青青热 | 国产欧美一区二区三区在线看蜜臀 | 色综合久久88色综合天天免费 | 另类视频在线观看 | 久久逼逼| 丰满少妇高潮在线观看 | 88av在线视频| 女同av网站 | 极品少妇视频 | 欧美亚韩一区二区三区 | 动漫av网 |