python房价数据分析波士顿_Python编程数据科学入门 - 波士顿房价数据分析
本文將使用Python的繪圖庫Matplotlib,通過數據可視化分析影響房價的主要因素。
波士頓房價數據集
波士頓房價數據集來源于1978年美國某經濟學雜志上。該數據集包含若干波士頓房屋的價格及其各項數據,每個數據項包含14個數據,分別是犯罪率、是否在河邊和平均房間數等相關信息,其中最后一個數據是房屋中間價。
變量名稱解釋
CRIM: per capita crime rate by town 每個城鎮人均犯罪率
ZN: proportion of residential land zoned for lots over 25,000 sq.ft. 超過25000平方英尺用地劃為居住用地的百分比
INDUS: proportion of non-retail business acres per town 非零售商用地百分比
CHAS: Charles River dummy variable (= 1 if tract bounds river; 0 otherwise) 是否靠近查爾斯河
NOX: nitric oxides concentration (parts per 10 million) 氮氧化物濃度
RM: average number of rooms per dwelling 住宅平均房間數目
AGE: proportion of owner-occupied units built prior to 1940 1940年前建成自用單位比例
DIS: weighted distances to five Boston employment centres 到5個波士頓就業服務中心的加權距離
RAD: index of accessibility to radial highways 無障礙徑向高速公路指數
TAX: full-value property-tax rate per $10,000 每萬元物業稅率
PTRATIO: pupil-teacher ratio by town 小學師生比例
B: 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town 黑人比例指數
LSTAT: % lower status of the population 下層經濟階層比例
MEDV: Median value of owner-occupied homes in $1000's 業主自住房屋中值
數據導入和查看
波士頓房價數據集在機器學習的sklearn.datasets包中,用datasets.load_boston()導入數據。接著使用.data和.target分別加載房屋屬性參數值和房屋中間價。
import pandas as pd
from sklearn import datasets
boston_dataset = datasets.load_boston()
X_full = boston_dataset.data
Y = boston_dataset.target
用房屋屬性參數值創建DataFrame,使用.columns修改行標簽為房屋屬性名稱,并添加一列房屋中間價數據。分別使用.head()和.info()查看數據,可以看到數據導入和整理成功,便于下一步的可視化分析。
boston = pd.DataFrame(X_full)
boston.columns = boston_dataset.feature_names
boston['PRICE'] = Y
boston.head()
boston.info()
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
CRIM 506 non-null float64
ZN 506 non-null float64
INDUS 506 non-null float64
CHAS 506 non-null float64
NOX 506 non-null float64
RM 506 non-null float64
AGE 506 non-null float64
DIS 506 non-null float64
RAD 506 non-null float64
TAX 506 non-null float64
PTRATIO 506 non-null float64
B 506 non-null float64
LSTAT 506 non-null float64
PRICE 506 non-null float64
dtypes: float64(14)
memory usage: 55.4 KB
數據可視化分析
從上文的數據可以看出,接下來要分析13個房屋屬性參數與房屋中間價的關系。房屋屬性參數中有一個數據是離散數據(CHAS,0 或者 1),其余的均為連續數據。
首先,使用matplotlib繪圖分析河邊CHAS(離散數據)和價格PRICE是否有相關性,可以看到二者沒有明顯的相關性,接下來的數據分析可以剔除屬性CHAS。
import matplotlib.pyplot as plt
%matplotlib inline
%config InlineBackend.figure_format = 'retina'
plt.style.use('seaborn-whitegrid')
plt.scatter(boston.CHAS, boston.PRICE)
plt.xlabel('CHAS')
plt.ylabel('PRICE')
plt.show()
接下來,需要分析12個連續數據與房屋中間價的相關性。因為變量比較多,為了迅速找出影響房屋中間價的因素,可以使用matplotlib中的Seaborn模塊繪制多變量圖。多變量圖的對角線上是變量分布的直方圖,非對角線上是兩個變量的散點圖。
把12個房屋屬性分成兩組與中間價繪圖,第一組:CRIM, ZN, INDUS, NOX, RM 和 AGE。
從圖中可以看出,CRIM(犯罪率)和 RM(平均房間數目)與PRICE(房屋中間價)有明顯相關性,RM和 PRICE呈現正態分布。
import seaborn as sns
sns.pairplot(boston, vars=['CRIM', 'ZN', 'INDUS', 'NOX', 'RM', 'AGE', 'PRICE'])
第二組:DIS, RAD, TAX, PTRATIO, B 和 LSTAT。從圖中可以看出,LSTAT(下層經濟階層比例)與PRICE有明顯相關性。
sns.pairplot(boston, vars=['DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'PRICE'])
將CRIM,RM,LSTAT 與 PRICE繪圖,可以更清楚的觀察和分析數據的相關性。從圖中看出 PRICE 與 LSTAT 及 CRIM 呈非線性關系,而與 RM 更呈線性關系。
sns.pairplot(boston, vars=['CRIM', 'RM', 'LSTAT', 'PRICE'])
總結:
通過數據可視化分析,獲得波士頓地區自住房屋中間價與下層經濟階層比例、平均房間數目和犯罪率有明顯的相關性。具體符合哪種相關性,進一步分析將會涉及到線性回歸等模型的應用。
總結
以上是生活随笔為你收集整理的python房价数据分析波士顿_Python编程数据科学入门 - 波士顿房价数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DEVICE_ATTR设置0777引发血
- 下一篇: Python定时任务框架APSchedu