【数据竞赛】十大重要的时间组合特征!
作者:塵沙杰少、櫻落、新峰、DOTA、謝嘉嘉
特征工程--無序類別&時間信息的組合特征!
前 言
本篇文章我們會介紹10大與時間相關的組合特征,這些特征在95%涉及到時間信息的競賽中都是極為重要的特征,也是以往Top選手與新手拉開差距的重要部分。
無序類別特征+時間特征
為了方便表示我們將A作為無序類別特征,B作為時間特征。無序類別特征與時間特征的交互往往是決定比賽走向的一大極為重要的特征,此處我們就列舉在實踐過程中上分最多的幾大特征。
1. 基于A/B一次差值特征
該特征可以表示A出現的時間間隔;該特征在點擊預估等的問題中都是非常重要的特征。如果A表示商品的話,那么基于A/B差值特征就表示A商品被瀏覽/購買/點擊的時間差。
df['A_B_diff1']?=?df['B']?-?df.groupby('A')['B'].shift()2.基于A/B二次差值特征
基于A/B一次差值特征的差值可以認為是最近的(即shift(1)的)的差值,自然我們也可以是兩次的,即shift(2)的,或者多次的,但是實踐中我們發現一般shift(3)及以上的效果就不是很明顯了。
df['A_B_diff2']?=?df['B']?-?df.groupby('A')['B'].shift(2)3.基于A與A/B一/二次差值特征的統計特征
該特征的構建是基于A/B一次/二次差值特征的,我們在A/B差值特征的基礎之上再計算A關于A/B差值特征的統計特征,例如:
均值;
方差;
中位數;
偏度;
分位數(四分位數等);
眾數;
skewness;
峰度系數;
其它統計特征。
該特征可以很好地反映A在時間戳上的諸多信息,如果基于A與A/B差值特征的最大值和最小值的差值很小或者方差相對很小,這就暗示可能存在較強的周期性,A可能會出現在固定的時間周期內。
df['A_A_B_diff1_sts']?=?df.groupby('A')['A_B_diff1'].apply(sts)? df['A_A_B_diff2_sts']?=?df.groupby('A')['A_B_diff2'].apply(sts)?4. 基于A/B差值的差值以及對應統計特征
如果說基于A/B差值特征是一階滑動,那么基于A/B差值的差值就是二階了,該特征一般直接加入也可以為模型帶來微弱的提升。因為和基于A/B的差值是類似的,此處我們給出其計算方式,其它的不再贅述。
類似地,我們也可以做shift(N),N>1的差值,但這么做的物理意義會差一些,實際中也很少能帶來提升。
df['A_B_diff1_diff']?=?df['A_B_diff1']?-?df.groupby('A')['A_B_diff1'].shift()? df['A_B_diff1_diff_sts']?=?df.groupby('A')['A_B_diff1_diff'].apply(sts)?5.A的第一次出現時間
A的第一次出現時間也就是接觸A的第一次時間,該特征具有非常強的意義。
df['A_B_first']?=??df.groupby('A')['B'].first()??6.A的最后一次出現時間
A的最后一次出現時間也就是接觸A的最后一次時間,該特征和第一次時間互為補充。
df['A_B_last']?=??df.groupby('A')['B'].last()??7.當前距離A出現第一次時間的時間差
A從第一次被接觸到最后一次被接觸的時間的差值。
df['B_A_B_first_diff']?=??df['B']?-?df['A_B_first']8.當前距離A最后一次出現時間的時間差
A距離最后一次接觸的時間的差值。
df['B_A_B_first_last']?=??df['B']?-?df['A_B_last']9.A出現的時間gap
A最后一次出現和第一次出現的時間的差值。
df['A_B_gap']?=?df['A_B_last']?-?df['A_B_first']10.平均每次A出現的時間
A每次出現的平均時間。
df['A_B_first_last_div_count']?=?(df['A_B_last']?-?df['A_B_first'])?/?df['A_B_count']??小結
本篇文章我們列舉了特征工程中無序類別變量與時間變量的十大重要組合特征,這些是最為重要的一組特征,也是傳統策略中上分最多的一組特征,除此之外與時間特征進行組合的特征還有非常多,我們將會在本系列的下一篇中進行介紹。
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯溫州大學《機器學習課程》視頻 本站qq群851320808,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【数据竞赛】十大重要的时间组合特征!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 电脑公司win11旗舰版32位镜像v20
- 下一篇: Chrome用户不喜新版:宁用其他浏览器