ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码—191017再次更新
ML之LGBMRegressor(Competition):2018年全國大學(xué)生計(jì)算機(jī)技能應(yīng)用大賽《住房月租金預(yù)測大數(shù)據(jù)賽》——設(shè)計(jì)思路以及核心代碼—191017再次更新
?
目錄
競賽相關(guān)信息
數(shù)據(jù)集處理前后
輸出結(jié)果
設(shè)計(jì)思路
核心代碼
相關(guān)文章
?
?
?
競賽相關(guān)信息
競賽背景:
? ? ? ? 為貫徹關(guān)于“推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實(shí)體經(jīng)濟(jì)深度融合”以及“善于運(yùn)用互聯(lián)網(wǎng)技術(shù)和信息化手段開展工作”等講話精神,引導(dǎo)高校在校生學(xué)習(xí)掌握計(jì)算機(jī)與互聯(lián)網(wǎng)知識,提高計(jì)算機(jī)的技能應(yīng)用,中國軟件行業(yè)協(xié)會培訓(xùn)中心將舉辦全國大學(xué)生計(jì)算機(jī)技能應(yīng)用大賽。大賽旨在增強(qiáng)廣大在校大學(xué)生的IT應(yīng)用技能,對于進(jìn)一步落實(shí)學(xué)校培養(yǎng)應(yīng)用型人才的目標(biāo)要求,培育創(chuàng)新創(chuàng)業(yè)人才、促進(jìn)產(chǎn)學(xué)研相結(jié)合有著重要意義。
? ? ? ? 當(dāng)今社會,房屋租金由裝修情況、位置地段、戶型格局、交通便利程度、市場供需量等多方面因素綜合決定,對于租房這個相對傳統(tǒng)的行業(yè)來說,信息嚴(yán)重不對稱一直存在。一方面,房東不了解租房的市場真實(shí)價格,只能忍痛空置高租金的房屋;另一方面,租客也找不到滿足自己需求高性價比房屋,這造成了租房資源的極大浪費(fèi)。
? ? ? ? 本次計(jì)算機(jī)技能大賽中的大數(shù)據(jù)賽題將基于租房市場的痛點(diǎn),提供脫敏處理后的真實(shí)租房市場數(shù)據(jù)。選手需要利用有月租金標(biāo)簽的歷史數(shù)據(jù)建立模型,實(shí)現(xiàn)基于房屋基本信息的住房月租金預(yù)測,為該城市租房市場提供客觀衡量標(biāo)準(zhǔn)。
任務(wù)與數(shù)據(jù)
? ? ? ? ? 數(shù)據(jù)為某地4個月的房屋租賃價格以及房屋的基本信息,我們對數(shù)據(jù)做了脫敏處理。 選手需要利用訓(xùn)練集中的房屋信息和月租金訓(xùn)練模型,利用測試集中的房屋信息對測試集數(shù)據(jù)中的房屋的月租金進(jìn)行預(yù)測。
? ? ? ? ? 數(shù)據(jù)分為兩組,分別是訓(xùn)練集和測試集。 訓(xùn)練集為前3個月采集的數(shù)據(jù),共196539條。 測試集為第4個月采集的數(shù)據(jù),相對于訓(xùn)練集,增加了“id”字段,為房屋的唯一id,且無“月租金”字段,其它字段與訓(xùn)練集相同,共56279條。 訓(xùn)練集所含字段如下:
2018年全國大學(xué)生計(jì)算機(jī)技能應(yīng)用大賽
住房月租金預(yù)測大數(shù)據(jù)賽(付費(fèi)競賽)
?
?
數(shù)據(jù)集處理前后
1、訓(xùn)練集、測試集
2、FE處理后的訓(xùn)練集
?
輸出結(jié)果
1、測試集經(jīng)過模型訓(xùn)練后輸出的結(jié)果
設(shè)計(jì)思路
1、處理的【小區(qū)房屋出租數(shù)量】列為空值的思路
2、處理數(shù)據(jù)
2、總思路
?
?
?
核心代碼
代碼運(yùn)行輸出
[LightGBM] [Warning] feature_fraction is set=0.6, colsample_bytree=1.0 will be ignored. Current value: feature_fraction=0.6 [LightGBM] [Warning] min_data_in_leaf is set=18, min_child_samples=20 will be ignored. Current value: min_data_in_leaf=18 [LightGBM] [Warning] min_sum_hessian_in_leaf is set=0.001, min_child_weight=0.001 will be ignored. Current value: min_sum_hessian_in_leaf=0.001 [LightGBM] [Warning] bagging_fraction is set=0.7, subsample=1.0 will be ignored. Current value: bagging_fraction=0.7?
相關(guān)文章
Competition:2018年全國大學(xué)生計(jì)算機(jī)技能應(yīng)用大賽《住房月租金預(yù)測大數(shù)據(jù)賽》——設(shè)計(jì)思路以及核心代碼
?
總結(jié)
以上是生活随笔為你收集整理的ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码—191017再次更新的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AI公开课:19.04.10颜水成—36
- 下一篇: Interview:算法岗位面试—10.