数据挖掘竞赛-美国King County房价预测训练赛
生活随笔
收集整理的這篇文章主要介紹了
数据挖掘竞赛-美国King County房价预测训练赛
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
美國King County房價預測訓練賽
- 簡介
- DC上的一個回歸題(正經的回歸題)。
- 比較簡單。
- 時間原因(暫時沒什么時間看國內舊賽),看了一下網上的解答,改善了一下神經網絡就提交了。
- 過程
- 數據獲取
- 報名成功后到官網提供的入口下載,或者我的Github也上傳了。
- 數據探索
- 簡單了解數據格式。
- 訓練集有10000條記錄,14個特征,描述如下。(注意,官方數據集沒有表頭)
- 其中,第二列“銷售價格”就是目標。
- 測試集有3000條記錄,利用訓練好的模型預測這3000條記錄的房價。
- 訓練集有10000條記錄,14個特征,描述如下。(注意,官方數據集沒有表頭)
- 簡單了解數據格式。
- 數據預處理
- 設置表頭
- 原數據沒有表頭,自己補充即可。
- 顯然,實際數據銷售日期是有意義的,但是,對模型建立不方便,提取年份,刪除月日。
- 利用銷售日期組合修理及建造日期構建新特征。
- 處理后數據集落地。
- 設置表頭
- 數據挖掘建模
- 幾種回歸嘗試
- 隨機森林(RFR)
- 線性回歸
- 神經網絡
- 由于幾種回歸表現一般,沒有再嘗試,看網上分享很多神經網絡做法,參考設計了一個前饋網絡。
- 使用Keras(TensorFlow作為后端,GPU訓練)
- 訓練5000次左右提交為100名成績。
- 注意:**5000次之前就已經收斂,為了效率可以加入EarlyStopping。(時間原因,沒有處理)
- 網絡代碼
- model = Sequential()input_size = len(df_train.columns)model.add(Dense(units=90, activation='relu', input_shape=(input_size, )))model.add(Dropout(0.5))model.add(Dense(units=45, activation='relu'))model.add(Dropout(0.5))model.add(Dense(units=30,activation='relu'))model.add(Dropout(0.25))model.add(Dense(units=15, activation='relu'))model.add(Dropout(0.1))# 此處不能使用激活函數,因為放假是放射的model.add(Dense(units=1,activation=None))# 官網使用mse計算損失model.compile(loss='mean_squared_error',optimizer='adam',metrics=[metrics.mae])model.summary()
- 幾種回歸嘗試
- 數據獲取
- 補充說明
- 排名靠前的應該不少使用機器學習算法回歸調參,有時間的不妨一試。
- 具體數據集和代碼見我的Github,歡迎Star或者Fork(環境為Jupyter)。
- 附上提交時的排名。
總結
以上是生活随笔為你收集整理的数据挖掘竞赛-美国King County房价预测训练赛的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 广度优先遍历算法-01寻找制高点问题
- 下一篇: 广度优先遍历算法-02合法的括号问题