【数据竞赛】CCF乘用车细分市场销量预测竞赛总结
題目:乘用車細分市場銷量預測
類型:時序回歸
https://datafountain.cn/competitions/352/
賽題背景
近幾年來,國內汽車市場由增量市場逐步進入存量市場階段,2018年整體市場銷量首次同比下降。在市場整體趨勢逐步改變的環境下,消費者購車決策的過程也正在從線下向線上轉移,我們希望能在銷量數據自身趨勢規律的基礎上,找到消費者在互聯網上的行為數據與銷量之間的相關性,為汽車行業帶來更準確有效的銷量趨勢預測。
賽題任務
本賽題需要參賽隊伍根據給出的60款車型在22個細分市場(省份)的銷量連續24個月(從2016年1月至2018年12月)的銷量數據,建立銷量預測模型;基于該模型預測同一款車型和相同細分市場在接下來一個季度連續4個月份的銷量;
除銷量數據外,還提供同時期的用戶互聯網行為統計數據,包括:各細分市場每個車型名稱的互聯網搜索量數據;主流汽車垂直媒體用戶活躍數據等。參賽隊伍可同時使用這些非銷量數據用于建模。
賽題數據
歷史銷量數據包含60個車型在22個省份,從2016年1月至2017年12月的銷量。參賽隊伍需要預測接下來4個月(2018年1月至2018年4月),這60個車型在22個省份的銷量;參賽參賽隊伍需自行劃分訓練集數據進行建模。
評分標準
采用NRMSE(歸一化均方根誤差)的均值作為評估指標。首先單獨計算每個車型在每個細分市場(省份)的NRMSE,再計算所有NRMSE的均值。
寶可夢訓練團隊
本方案先對數據進行了探索性分析,去除掉與銷售量變化趨勢關系不大的"搜索量"、"對車型相關新聞文章的評論數量"、"對車型的評價數量"等用處不大的特征。
在其中的一個模型,對銷售量進行log1p變換,這樣可以使銷量數據在轉換后基本服從一個正態分布,能夠提升一定的效果;考慮到春節、農歷月份的影響,本方案做了相關標示。
在做特征工程方面,構造了滑窗。平移,趨勢,統計等方面的特征。在總體策略上,因為要預測連續四個月的銷量,我本方案的策略是一個月一個月的預測,首先預測1月份的結果。然后將1月份的預測結果合并到訓練集,再預測2 月份結果,依次類準。
在模型融合方面,我一共使用了3個模型,每個模型的特征組合不同,進行融合后有一定提升效果。
數據分析
不同車型、不同省份在不同月份的點,銷量差距還是很大的,但也不排除是臟數的可能。
銷量與車型搜索量、相關新聞回復量、評價數量分析的變化趨勢并沒有太大的規律性,所以我在訓練時,沒有要這些特征。
銷量數據分析
銷量銷量趨勢分析
銷量與車型的關系
特征工程
模型1
是否春節特征
車型(model)、車身類型(bodyIype)、省份分別與年份進行分組提作,求得銷量均值
距離2015年12月的月數間隔特征
車型和省份的組合特征
車型、省份和間隔月份 mt 的組合特征
設置不同月份數據的權重值特征
同車型同省份上一個月的銷量
模型2
是否春節特征。
農歷月份
2017年同車型同省份銷量之和同比 2016年的倍數
距離 2015年12月的月數間隔特征mt
車型和省份的組合特征
車型、省份和間隔月份 mt 的組合特征
同車型同省份前面第1到第 13個月的銷量
同車型同省份前面第1個月與第 13個月的比值
同車型同省份前面第1個月與第13個月的差值再驗以第13個月的值
同車型同省份前面第1個月與第2個月的比值和差值。
同車型同省份前面第 2個月與第3個月的比值和差事
滑窗特征。分別計算同車型同省份前面3個月和6 個月的均值、標準差
滑窗特征。分別計算同 bodyType 同省份前面3個月和6個月的均值、標準差
滑窗特征。分別計算同省份前面3個月和6個月的均值、標準差
滑商特征。分別計算同bodyType 前面3個月和6 個月的均值、標準差
模型3
距離2015年 12月的月數間隔特征 mt
車型和省份的組合特征
車型、省份和間隔月份 mt 的組合特征
相同車型、省份前16個月每個月的銷量
比前一年的增長率
每個省份、每個月的車型上一年同月份銷量均值和最小值。
前面的第3、4、15、16個月同車型的銷量均值。并求;前面第15月均值與前面第3個月均值之差與前面第15 個月均值的商;前面第 16月均值與前面第4個月均值之差與前面第16個月均值的商
同車型同省份前面第1、2、11、12個月銷量之和
同車型同省份前面第1、2、3個月銷量之和。(11)同車型同省份前面第1、12個月銷量之和
秋名山車神團隊
特征工程
不同省份 & 不同車型構建不同銷量
基于特征重要性、均值和相關系數篩選特征
模型選擇
對比XGBoost、LightGBM、CatBoost、LSTM、CNN和Prophet模型,最后選擇LightGBM。
詩人藏夜里團隊
整體方案
從實際業務場景出發挖掘有效特征,采用機器學習模型逐月預測
結合前沿神經網絡研究成果采用神經網絡模型分車型建模預測,最終對不同預測結果分月按不同比例加權驗合
特征工程
將所提取的特征歸為以下幾類:同比、環比、歷史信息、編碼、差分差比、趨勢、節假日、其它。
掙錢買地球團隊
本賽題的最為難解決的難點在于驗證集的線上線下不一致的問題,我們放棄了驗證集。
我們會拿預測出來的每個月的總銷量去跟我們猜測的數據去比較,如果預測出來的數據不是特別高,并且跟猜測的數據接近的話,我們會嘗試提交,往往效果都很不錯。
核平精英團隊
特征工程
要仔細考慮教據的周期性與趨勢性,可分為環比趨勢及同比趨勢:
環比方面,主要體現的為該類車在近幾個月內銷量的情況
同比方面,主要體現的為該類車當年與去年相比的情況,在這之間也體現了乘用車銷量的年周期性,
對于周期性,將其作為結果評估的依據,對本題所要預測的1-4月,可以明顯的看出其每年的銷量都呈現1月高峰、2月低谷、3和4月有所改善目兩月近平持平的趨勢,若模型預測出的教據分布不是如此即需調整。
后處理
隨比賽進行,多次提交過結果后可以猜測,所要預測的18年 1-4月的銷量是偏低的,這時就可以對預測結果乘一個小于1的因子進行調整。
往期精彩回顧適合初學者入門人工智能的路線及資料下載中國大學慕課《機器學習》(黃海廣主講)機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載本站qq群955171419,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【数据竞赛】CCF乘用车细分市场销量预测竞赛总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python排序算法(一)冒泡排序、选择
- 下一篇: std::tuple还是struct?