日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

特征工程与规则模型

發布時間:2025/3/8 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 特征工程与规则模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

特征工程&規則模型

導語

????在諸多比賽中,常常都可以聽說到一些高手避開了XGBoost、TensorFlow等高端機器學習模型,利用一些簡單的數據處理就獲得榜單的首位。這些簡單的數據處理方法常被這些高手稱為“規則”模型。

新手在接觸比賽之后,費勁千辛萬苦之后可能發現自己的模型的分數還遠遠趕不上高手的簡單幾行代碼發現的規則模型分數。這表面上看是跟高手之間經驗的差別,其實這從深層次體現了特征工程的重要性,因為規則就是強特(與目標相關性很高的特征)的提取和組合。

那么數據挖掘為什么需要特征工程,這是很多初學者在拿到數據之后,感到特別疑惑的地方。為什么不能把數據直接丟進模型當中跑呢?當然,數據直接丟進模型中跑是可以的,只是模型并不一定能學習到正確的事情。

特征工程在數據挖掘中究竟有什么樣的意義呢?我想這個問題很多論壇還有公眾號都比我說的要更加詳細,這里我個人比較傾向于知乎上的一個答案“特征工程到底是什么?”,里面有很多厲害的高手都給出了自己的解答,而本文則是想從側面來解析拿到一個題目或者數據之后,不妨先做一個規則模型。。里面有很多厲害的高手都給出了自己的解答,而本文則是想從側面來解析拿到一個題目或者數據之后,不妨先做一個規則模型。

這里我先給出規則模型的定義:針對給出的數據,進行分析提取一些有用的數據或者進行數據的組合完成最后的數據分析目標所構造的模型就是規則模型。由上面我給出的定義來看,細心的你可能就發現建立規則模型是一種幫助自己深入數據和理解任務的一個有效過程。

為什么先做規則模型呢?這里我將結合今年騰訊比賽給出自己的理解。今年騰訊廣告算法比賽的目的是希望選手利用歷史的廣告曝光信息,來預測未來某一天某種廣告配置屬性下面的廣告的日曝光量大小。后臺發送“2019騰訊比賽”,返回賽題手冊鏈接。

01

規則模型是目標數據特點的體現

首先,規則模型有可能是目標預測數據特點一個體現。在今年騰訊廣告算法的初賽中,大家發現了一個非常強的規則模型,那就是舊廣告的曝光數據直接取歷史曝光數據的中位數,然后新廣告的曝光值直接用0來填充,這是為什么呢?我們團隊在初賽中,機器學習的模型分數一直都低于規則的模型分數。那是因為我們的模型的分數并沒有學習到曝光值的特點,而規則模型卻學到了,因為最后測試集的曝光數據的值大部分都是很小的數值,而且有大部分可能就是0,因而新廣告直接填充0最后線上分數很高,就從側面幫助我們了解到了目標數據的特點和分布。

02

規則模型=高級的特征工程

其次,建立規則模型本身就是一個高級的特征工程。在今年騰訊廣告算法大賽的復賽中,又有高手發現了一個很強的規則模型,那就是利用廣告的歷史曝光次數除以曝光請求總數得到歷史的曝光勝率,然后利用這個勝率乘以最后測試集廣告的總請求數量,就可以得到曝光數。我們團隊在“發現”了這個規則模型之后,隊長非常敏銳的意識到了這是一個非常有用的特征。規則模型做出來的這個特征本身不僅僅反應了廣告在曝光當日的廣告的覆蓋量,另一方面又反應了廣告相對于其他廣告的競爭力。事實上,在我們采用熱力圖分析這個特征與目標的相關性的時候,也發現相關性達到了80%。利用上了這個特征之后,我們團隊的機器學習模型的分數才真正的超過了規則模型的分數。這個規則模型的建立本身就是在挖掘預測目標跟已有數據之間的聯系,所以規則模型就是在幫助選手深入理解數據和目標。

03

規則模型有助于對模型的優化

最后,規則模型還有助于對模型的優化。第一點就提到了新廣告的曝光數據直接填充0,模型的分數就可以很高,這說明了數據分布很接近0,那么這就啟發了很多參賽隊員要對線上的準確性指標進行優化。如下圖所示,可以看出準確性指標肯定是越小說明模型的分數更高。但是如果真實值和目標值都是0的話,準確性指標函數就變為0了,所以我們就需要對模型的訓練loss進行平滑,參見上一篇推送文章“騰訊比賽總反思-附top選手的方案”,可以發現很多top選手在訓練LGB或者NN模型的時候都進行了平滑,這樣可以保證自己模型的訓練loss變化跟線上的評分比較貼合,從而可以通過線下Loss變化來猜測線上的變化。

規則模型不僅是優化loss函數,很多隊伍還發現了如果大部分曝光值都比較小的話,可以先做分類模型然后再做回歸模型。即,先將目標預測值分類成3中,分別是預測值為0,預測值為1,預測值大于1。然后再對預測值大于1的哪一類再用模型去回歸具體車曝光值,事后詢問相關top選手,這個方案可以提分1分左右。

由此可見,相信你會發現規則模型對于一個數據分析任務的意義=深度理解數據+高級特征工程。

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的特征工程与规则模型的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。