大家在谈租房时都在谈些什么?--豆瓣租房小组词云图
上次已經從豆瓣小組上爬取到了很多租房信息,但是標題大家都沒有統(tǒng)一的規(guī)范,所以想通過統(tǒng)計詞頻來看看有什么關鍵字,看能不能利用統(tǒng)計出來的關鍵字對標題信息進行篩選提取。
在找詞頻統(tǒng)計的時候看到了,居然有一個詞云圖的東西。
這么好玩的東西當然不能錯過啦。趕緊試試看先。
這次生成詞云圖真的是攏共分三步。
第一步:讀取文本信息
第二步:用分詞工具進行分詞
第三步:用詞云圖庫輸出詞云圖
from wordcloud import WordCloud, ImageColorGenerator # 詞云庫,生成詞云的主要工具 import matplotlib.pyplot as plt # 2D繪圖套件 from PIL import Image # 圖像生成需要的圖像套件 import numpy as np # numpy計算工具 import pandas as pd # 數(shù)據(jù)分析工具 import jieba # 分詞庫,中文分詞工具excel_path = 'F:\SY\Python\douban_project\douban_baoan.xlsx' #獲取數(shù)據(jù),并將數(shù)據(jù)轉換成string格式 d = pd.read_excel(excel_path) text = str(d['title'])cut_text = jieba.cut(text) # 用jieba對數(shù)據(jù)文本進行分詞操作 result = "/".join(cut_text) # 必須給個符號分隔開分詞結果來形成字符串,否則不能繪制詞云 # print(result) # 若有需要可以預覽分詞效果wc = WordCloud(font_path=r"F:\SY\Python\douban_project\yahei.ttf", background_color='white', width=700,height=500, max_font_size=70,max_words=1000) # ,min_font_size=10)#,mode='RGBA',colormap='pink')# 調用詞云工具,因為默認沒有中文字形,所以參數(shù)里需要輸入字形路徑。# 背景顏色為白色,定義圖片大小為700*500,最大字形為70,最大詞數(shù)為1000 wc.generate(result) # 輸入分詞完的結果,并生成詞云 wc.to_file(r"F:\SY\Python\douban_project\douban_baoan.png") # 按照設置的像素寬高度保存繪制好的詞云圖,比下面程序顯示更清晰# 4、顯示圖片 plt.figure("詞云圖") # 指定所繪圖名稱 plt.imshow(wc) # 以圖片的形式顯示詞云 plt.axis("off") # 關閉圖像坐標系 plt.show()效果還不錯,就像這樣
接下來就是名(yi)偵(ben)探(zheng)的(jing)推(hu)理(shuo)時(ba)間(dao)了。
可以看到最大的字是公寓,科技園,單間,轉租,地鐵口,南山,因為爬取的是南山小組,南山這個詞出現(xiàn)頻率很高是正常的。
然后可以看出科技園應該是南山的一個亮點,有可能是需要租在科技園的人很多,也有可能是房主想把房子方便科技園人群上班作為一個亮點,從求租這個詞出現(xiàn)的頻率不高可以判斷應該是后者。
從公寓和單間這個詞可以看出南山區(qū)的公寓和單間房源應該是比較多的。
從地鐵口可以大部分房子周邊都有地鐵,或者是房主這么生成的,畢竟兩公里也有的說是地鐵口附近。
幾個地天詞是桃園,西麗,大新,科技園。
總結起來就是,桃園,西麗,大新,科技園附近的房源比較多,其中以公寓和單間占大多數(shù),且附近都有地鐵口。
?
總結
以上是生活随笔為你收集整理的大家在谈租房时都在谈些什么?--豆瓣租房小组词云图的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UDE(Universal Debug
- 下一篇: pyqt5上位机开发框架