Python词云#疫情退去后,你最想做什么
生活随笔
收集整理的這篇文章主要介紹了
Python词云#疫情退去后,你最想做什么
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
“等疫情過去,等我回家,抱抱爸媽,拉著他們去河邊散步,聽他們嘮叨,再也不還嘴。我愛你們,希望你們知道。”
“去公園跑步高呼,太憋了,人都要發霉了。”
“去見城南朋友,聊聊昨天失敗的表白。”
“回杭后,要見周先生。”
以上內容,均來自“豆瓣”熱門話題#冠狀疫情退去后的第一天你打算做什么#
本文爬取了該話題下的短評數據,進行高頻詞統計和詞云可視化,來分析大家在疫情之后,最想念誰,最想做什么?
01.
保存短評數據
通過瀏覽器“檢查”分析,得到URL數據接口。在不斷往下刷新頁面的過程中,發現URL中只有“start”參數不斷產生變化,依次為0,20,40,60,80---
同時,為了破解“豆瓣”的防爬蟲機制,請求數據時需攜帶“請求頭(headers)”中的“User-Agent”和“Referer”兩個參數。
import?requestsfor?i?in?range(0,200,20):#?通過瀏覽器檢查,得到數據的URL來源鏈接url?=?'https://m.douban.com/rexxar/api/v2/gallery/topic/125573/items?'?\'sort=new&start={}&count=20&status_full_text=1&guest_only=0&ck=null'.format(i)#?破解防爬蟲,帶上請求頭#?這兩個不能省略headers?=?{'User-Agent':?'Mozilla/5.0?(Windows?NT?10.0;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/76.0".3809.100?Safari/537.36','Referer':?'https://www.douban.com/gallery/topic/125573/?from=gallery_trend&sort=hot'}#?發送請求,獲取響應reponse?=?requests.get(url,?headers=headers)html?=?reponse.json()#?解析數據,獲得短評#?保存到本地for?j?in?range(19):abs?=?html['items'][j]['abstract']with?open("want_after.txt",?"a",?encoding='utf-8')?as?f:f.write(abs)print(abs)02.
詞云可視化
把數據保存之后,需要利用“jieba”對數據進行分詞;進而,通過分詞后的數據繪制詞云“wordcloud”,可視化展示數據。
通過詞云,可以直觀的看到“吃火鍋”、“電影”、“朋友”、“奶茶”、“擁抱”、“疫情”等高頻的關鍵詞。
這也代表了我們大多數人的心愿。
03.
高頻詞統計
#?看看詞頻高的有哪些 process_word?=?WordCloud.process_text(wc,?text) sort?=?sorted(process_word.items(),?key=lambda?e:?e[1],?reverse=True) sort_after?=?sort[:50] print(sort_after)#?把數據存成csv文件 df?=?pd.DataFrame(sort_after) #?保證不亂碼 df.to_csv('sort_after.csv',?encoding='utf_8_sig')面朝大海,春暖花開。
后臺回復“陽光”
獲取文中涉及的全部源碼
總結
以上是生活随笔為你收集整理的Python词云#疫情退去后,你最想做什么的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 9个不为人知的Python技巧
- 下一篇: 推荐一些能能提高生产力的 Python