【机器学习基础】回归相关指标优化
作者:?塵沙杰少、謝嘉嘉、DOTA、有夕
賽題理解,分析,規劃之回歸相關指標優化
此處我們列舉kaggle過往幾年中,在回歸問題中經常出現的一些評估指標,因為在數據競賽中我們更多的是考慮在特定評測指標下如何對我們的指標進行優化來提升線上的排名,所以此處我們不對這些指標的合理性進行探討,有興趣的可以去google上探討相應指標在實踐生產中的合理性。
在下面的篇章中,我們會給出回歸問題類的競賽中各類評估指標以及Top方案采用的優化方式,便于大家查詢,此處僅列舉常用的作為參考,很多獲獎的選手都是各種Loss的組合并最后做模型stacking得到的,這些我們會在后面系列的文章中慢慢提到。
1. RMSE(Root Mean Square Error)
1.1 定義
其中為測試樣本的個數,為第個樣本的真實值, 為關于第個樣本的預測結果;
1.2 案例
New York City Taxi Fare Prediction,2018
Predict Future Sales
House Prices - Advanced Regression Techniques
Restaurant Revenue Prediction
BigQuery-Geotab Interp Congestion
Google Analytics Customer Revenue Prediction
Tabular Playground Series - Jan 2021
Elo Merchant Category Recommendation
Tabular Playground Series - Feb 2021
1.3 求解
RMSE可以直接優化的函數,一般默認選用平方損失函數進行優化即可,很多工具包里面也稱之為L2損失。
2. MSE(Mean Square Error)
2.1 定義
其中為測試樣本的個數,為第個樣本的真實值, 為關于第個樣本的預測結果;
2.2 案例
暫無
2.3 求解
MSE是可以直接優化的函數,所以直接默認選用平方損失函數進行優化即可,很多工具包里面也稱之為L2損失。
3. MAE(Mean Absolute Error)
3.1 定義
其中為樣本的個數,為第個樣本的真實值, 為關于第個樣本的預測結果;
3.2 案例
Allstate Claims Severity
Basic Regression Competition
How Much Did It Rain? II
3.3 求解
MAE在諸多工具包中也已經有對應的優化函數,直接使用即可,有些包中也會稱之為L1損失函數。
4. RMSLE(Root Mean Squared Logarithmic Error)
4.1 定義
其中為測試樣本的個數,為第個樣本的預測結果,為第個樣本的真實值。
4.2 案例
Walmart Recruiting II: Sales in Stormy Weather
Machinery Tube Pricing
Sberbank Russian Housing Market
New York City Taxi Trip Duration
4.3 求解
先對數據做log1p轉化,然后使用L2損失函數直接求解即可。
5. MAPE(Mean Absolute Percentage Error)
5.1 定義
5.2 案例
Cart Time Series
5.3 求解
如果采用神經網絡對此類問題進行優化,可以直接自己定義MAPE的Loss。
參考文章
Choosing the correct error metric: MAPE vs. sMAPE:https://towardsdatascience.com/choosing-the-correct-error-metric-mape-vs-smape-5328dec53fac
What is the different MAE, MAPE, MSE, and RMSE:https://www.kaggle.com/learn-forum/52081
mape和smape,基于mae的回歸評價指標:https://zhuanlan.zhihu.com/p/259662864
Model Fit Metrics:https://www.kaggle.com/residentmario/model-fit-metrics
總結
以上是生活随笔為你收集整理的【机器学习基础】回归相关指标优化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Win11系统获取管理员权限的方法
- 下一篇: 【NLP】巧借“他山之石”,生成信息量大