贝壳房价数据分析
目錄
?
項(xiàng)目內(nèi)容
項(xiàng)目目的
房源數(shù)據(jù)爬取
數(shù)據(jù)清洗
數(shù)據(jù)分析+可視化
?
項(xiàng)目內(nèi)容
?本案案例選擇貝殼網(wǎng)寧波地區(qū)的二手房房源信息進(jìn)行分析
項(xiàng)目目的
1.寧波各區(qū)二手房數(shù)量與每平米房價(jià)分布情況
2.房屋結(jié)構(gòu)概況
3.分析各因素對(duì)房價(jià)的影響(地區(qū)、戶型、朝向、裝修)
4.統(tǒng)計(jì)出現(xiàn)在標(biāo)題中出現(xiàn)次數(shù)最多的詞是什么
?
?
房源數(shù)據(jù)爬取
1.全部代售房屋數(shù)據(jù)
爬取到的數(shù)據(jù)
數(shù)據(jù)清洗
1.刪除缺失值
使用篩選,篩選出戶型結(jié)構(gòu)的空白值
全部選中刪除行
然后點(diǎn)擊列就可知道每列有多少的數(shù)值
?
2.將樓層中的數(shù)字提取出來
=MID(E2,FIND("共",E2)+1,FIND("層",E2,FIND("共",E2))-FIND("共",E2)-1)用此Excel公式將樓層數(shù)字提取取出以便后期分析,再將原列隱藏起來。
?
?
3.提取平均每平方米房價(jià)數(shù)據(jù)
clean函數(shù)用于刪除不能打印的換行符
=CLEAN(LEFT(I2,FIND("元",I2)-1))不過要注意的是unitprice_num這一列還不是數(shù)值格式,在Excel中靠右的才算數(shù)值格式。
轉(zhuǎn)換成數(shù)值格式過程:
(1)在其后面插入一列,然后復(fù)制該列,以值的格式粘貼到后面。
(2)選中該列,數(shù)據(jù)→分列→以“,”分隔
這樣便得到了靠右的數(shù)據(jù)
?
4.將房屋面積替換為可清洗的數(shù)值
?
數(shù)據(jù)分析+可視化
?
1、寧波各區(qū)二手房數(shù)量與每平米房價(jià)分布情況
(1)各地區(qū)二手房數(shù)量分布
從數(shù)量統(tǒng)計(jì)上來看,目前二手房市場上比較火熱的區(qū)域。鄞州區(qū)、北侖區(qū)和海曙區(qū)的二手房數(shù)量最多,基本都在2500套以上,畢竟是在人口比較集中的地區(qū),需求也大。
?
(2)寧波地區(qū)每平米房價(jià)分布情況
由上圖可以看出,寧波地區(qū)的房單價(jià)大部分分布在1w-3w之間,寧波作為新一線城市房價(jià)增長的速度也越來越快。
?
2、房屋結(jié)構(gòu)概況
(1)戶型結(jié)構(gòu)的分布
我們發(fā)現(xiàn)只要少數(shù)幾種戶型的數(shù)量比較多,其余戶型的數(shù)量基本是個(gè)位數(shù)。所以,在這里我們將房子套數(shù)小于50的戶型歸為一類,命名為其他戶型。
寧波地區(qū)租房中房源最多的戶型是3室2廳型
?
(2)朝向分布
朝南房子最多,這樣符合大部分國內(nèi)房子的朝向。
?
(3)房屋裝修情況
可以看到二手房當(dāng)中,大部分都是已經(jīng)精裝過的,說明大部分都是有居住過再轉(zhuǎn)手。
?
?
3、各因素對(duì)房價(jià)的影響
?
(1)寧波地區(qū)二手房總價(jià)浮動(dòng)情況
可以看到寧波地區(qū)二手房,由于有相當(dāng)一部分的異常值,導(dǎo)致整體分布不均勻,無法觀察到總體。
從房屋總價(jià)數(shù)據(jù)里面可以發(fā)現(xiàn),平均的房價(jià)為230W,而這里最高的房價(jià)竟然達(dá)到了3100W,所以房屋總價(jià)數(shù)據(jù)中存在異常數(shù)據(jù),這里處理的方法是將超過平均值3倍標(biāo)準(zhǔn)差的異常數(shù)據(jù)進(jìn)行剔除,平均值為230,標(biāo)準(zhǔn)差為164,剔除房屋總價(jià)大于722的數(shù)據(jù)。
?
從上可以看出鄞州區(qū)和江北區(qū)的房價(jià)浮動(dòng)情況最大,有75%都在180W以上。而寧??h地區(qū)的房產(chǎn)浮動(dòng)則最小,大部分在75w-200w之間。
(2)各地區(qū)平均房價(jià)對(duì)比
寧波地區(qū)房價(jià)最貴的為鄞州區(qū),大約2.6萬/平。其次是江北區(qū)2.4萬/平,海曙區(qū)2.2萬/平,然后是鎮(zhèn)海區(qū)2萬/平,其他均第一2萬/平。
房屋總價(jià)和單價(jià)具有相關(guān)性,一般房總價(jià)越高,每平方米的價(jià)格也就越高。
寧海縣每平方米的價(jià)格比象山縣要高,而它的平均總價(jià)卻比象山縣的要低。這是因?yàn)閷幒?h的房源信息只有5套,相比其他幾個(gè)地區(qū)統(tǒng)計(jì)量要少,沒有太多異常值的原因。
?
(3)裝修程度與價(jià)格對(duì)比
對(duì)于裝修程度與價(jià)格的箱型圖來看,精裝修的價(jià)格最高,其次是毛坯房。
?
(4)房屋朝向與價(jià)格的關(guān)系
從上圖可以發(fā)現(xiàn)只要朝向偏南或有朝南的,價(jià)格都會(huì)偏高,都在2W/米
?
?
4、統(tǒng)計(jì)出現(xiàn)在標(biāo)題中出現(xiàn)次數(shù)最多的詞是什么
賣家為了能盡快的收儲(chǔ)房子一定會(huì)為自己的房子量身定做吸引人眼球的廣告詞,而這些廣告詞則能很好反映對(duì)于一套房子而言具備什么因素才能稱得上一個(gè)“筍盤”。戶型方正,精裝修,交通便利。拎包入住都是一套吸引人的房子所具備的特點(diǎn)。
詞云圖
代碼
import jieba import matplotlib.pyplot as plt from scipy.misc import imread from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator import numpy as np from PIL import Image text_from_file=open('title.txt', 'r', encoding='utf-8').read() Word_spilt_jieba = jieba.cut(text_from_file, cut_all=False) word_space = ' '.join(Word_spilt_jieba) #print(word_space) # 圖片背景模板 image=np.array(Image.open('timg.jpg'))my_wordcloud = WordCloud(scale=4,# 設(shè)置背景顏色background_color="white",# 設(shè)置最大顯示的詞云數(shù)max_words=100,# 這種字體都在電腦字體中,一般路徑font_path='C:\Windows\Fonts\simfang.ttf',mask=image,# 設(shè)置字體最大值max_font_size=100,# 設(shè)置有多少種隨機(jī)生成狀態(tài),即有多少種配色方案 ).generate(word_space)plt.imshow(my_wordcloud) plt.axis('off') plt.show() my_wordcloud.to_file('res.jpg')?
總結(jié)
- 上一篇: 码农笑话图片十张
- 下一篇: FPGA、AD9371、AD9009、R