日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Task 1 天池赛 - 二手车交易价格预测

發布時間:2024/10/6 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Task 1 天池赛 - 二手车交易价格预测 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

    • 1 賽題概況
      • 1.1 概況
      • 1.2 數據概況
      • 1.3 評估指標
    • 2 賽題分析
      • 2.1 分析
      • 2.2 代碼示例
        • 數據讀取
        • 分類指標評價計算示例
        • 回歸指標評價計算示例
    • 3 經驗總結
    • 4 問題記錄

1 賽題概況

1.1 概況

賽題以預測二手車的交易價格為任務。

1.2 數據概況

該數據來自某交易平臺的二手車交易記錄,總數據量超過40w,包含31列變量信息,其中15列為匿名變量。為了保證比賽的公平性,將會從中抽取15萬條作為訓練集,5萬條作為測試集A,5萬條作為測試集B,同時會對name、model、brand和regionCode等信息進行脫敏。

1.3 評估指標

本賽題的評價標準為MAE(Mean Absolute Error):
MAE=∑i=1n∣yi?y^i∣nM A E=\frac{\sum_{i=1}^{n}\left|y_{i}-\hat{y}_{i}\right|}{n}MAE=ni=1n?yi??y^?i??

補充:

分類算法常見的評估指標如下:

  • 對于二類分類器/分類算法,評價指標主要有accuracy, [Precision,Recall,F-score,Pr曲線],ROC-AUC曲線。
  • 對于多類分類器/分類算法,評價指標主要有accuracy, [宏平均和微平均,F-score]。

回歸預測類常見的評估指標如下:

  • 平均絕對誤差(Mean Absolute Error,MAE),均方誤差(Mean Squared Error,MSE),平均絕對百分誤差(Mean Absolute Percentage Error,MAPE),均方根誤差(Root Mean Squared Error), R2(R-Square)

平均絕對誤差(Mean Absolute Error,MAE):
MAE=1N∑i=1N∣yi?y^i∣M A E=\frac{1}{N} \sum_{i=1}^{N}\left|y_{i}-\hat{y}_{i}\right|MAE=N1?i=1N?yi??y^?i?
均方誤差(Mean Squared Error,MSE):
MSE=1N∑i=1N(yi?y^i)2M S E=\frac{1}{N} \sum_{i=1}^{N}\left(y_{i}-\hat{y}_{i}\right)^{2}MSE=N1?i=1N?(yi??y^?i?)2
R2(R-Square)的公式:
殘差平方和:
SSres=∑(yi?y^i)2S S_{r e s}=\sum\left(y_{i}-\hat{y}_{i}\right)^{2}SSres?=(yi??y^?i?)2
總平均值:
SStot=∑(yi?yˉi)2S S_{t o t}=\sum\left(y_{i}-\bar{y}_{i}\right)^{2}SStot?=(yi??yˉ?i?)2
R2R^2R2表達式:
R2=1?SSresSStot=1?∑(yi?y^i)2∑(yi?yˉ)2R^{2}=1-\frac{S S_{r e s}}{S S_{t o t}}=1-\frac{\sum\left(y_{i}-\hat{y}_{i}\right)^{2}}{\sum\left(y_{i}-\bar{y}\right)^{2}}R2=1?SStot?SSres??=1?(yi??yˉ?)2(yi??y^?i?)2?
參數說明:
R2R^2R2 用于度量因變量的變異中可由自變量解釋部分所占的比例,取值范圍是 0~1,
R2R^2R2 越接近1,表明回歸平方和占總平方和的比例越大,回歸線與各觀測點越接近,用x的變化來解釋y值變化的部分就越多,回歸的擬合程度就越好。
所以R2R^2R2 也稱為擬合優度(Goodness of Fit)的統計量。

2 賽題分析

2.1 分析

  • 回歸問題
  • 主要應用xgb、lgb、catboost,以及pandas、numpy、matplotlib、seabon、sklearn、keras等等數據挖掘常用庫或者框架來進行數據挖掘任務。
  • 通過EDA來挖掘數據的聯系和自我熟悉數據。
  • 2.2 代碼示例

    數據讀取

    import pandas as pd import numpy as np# 載入測試集和訓練集 Train_data = pd.read_csv('used_car_train_20200313.csv', sep=' ') Test_data = pd.read_csv('used_car_testA_20200313.csv', sep=' ')print('Train data shape:', Train_data.shape) print('TestA data shape:', Test_data.shape) Train data shape: (150000, 31) TestA data shape: (50000, 30) Train_data.head() SaleIDnameregDatemodelbrandbodyTypefuelTypegearboxpowerkilometer...v_5v_6v_7v_8v_9v_10v_11v_12v_13v_14
    007362004040230.061.00.00.06012.5...0.2356760.1019880.1295490.0228160.097462-2.8818032.804097-2.4208210.7952920.914762
    1122622003030140.012.00.00.0015.0...0.2647770.1210040.1357310.0265970.020582-4.9004822.096338-1.030483-1.7226740.245522
    221487420040403115.0151.00.00.016312.5...0.2514100.1149120.1651470.0621730.027075-4.8467491.8035591.565330-0.832687-0.229963
    337186519960908109.0100.00.01.019315.0...0.2742930.1103000.1219640.0333950.000000-4.5095991.285940-0.501868-2.438353-0.478699
    4411108020120103110.051.00.00.0685.0...0.2280360.0732050.0918800.0788190.121534-1.8962400.9107830.9311102.8345181.923482

    5 rows × 31 columns

    分類指標評價計算示例

    # Accuracy import numpy as np from sklearn.metrics import accuracy_scorey_pred = [0, 1, 0, 1] y_true = [0, 1, 1, 1]print('ACC:', accuracy_score(y_true, y_pred)) ACC: 0.75 # Precision, Recall, F1-score from sklearn import metricsy_pred = [0, 1, 0, 0] y_true = [0, 1, 0, 1]print('Precision:', metrics.precision_score(y_true, y_pred)) print('Recall:', metrics.recall_score(y_true, y_pred)) print('F1-score:', metrics.f1_score(y_true, y_pred)) Precision 1.0 Recall 0.5 F1-score 0.6666666666666666 # AUC import numpy as np from sklearn.metrics import roc_auc_scorey_true = np.array([0, 0, 1, 1]) y_scores = np.array([0.1, 0.4, 0.35, 0.8])print('AUC score:', roc_auc_score(y_true, y_scores)) AUC score: 0.75

    回歸指標評價計算示例

    import numpy as np from sklearn import metrics# MAPE 需要自己實現 def mape(y_true, y_pred):return np.mean(np.abs((y_pred - y_true) / y_true))y_true = np.array([1.0, 5.0, 4.0, 3.0, 2.0, 5.0, -3.0]) y_pred = np.array([1.0, 4.5, 3.8, 3.2, 3.0, 4.8, -2.2])# MSE print('MSE:', metrics.mean_squared_error(y_true, y_pred))# RMSE print('RMSE:',np.sqrt(metrics.mean_squared_error(y_true, y_pred)))# MAE print('MAE:', metrics.mean_absolute_error(y_true, y_pred))# MAPE print('MAPE:', mape(y_true, y_pred)) MSE: 0.2871428571428571 RMSE: 0.5358571238146014 MAE: 0.4142857142857143 MAPE: 0.1461904761904762 # R2-socre from sklearn.metrics import r2_scorey_true = [3, -0.5, 2, 7] y_pred = [2.5, 0.0, 2, 8] print('R2-score:', r2_score(y_true, y_pred)) R2-score: 0.9486081370449679

    3 經驗總結

    這一塊覺得作者講的很好,但沒參加過比賽,并不是很能體會到其中的精髓,先記錄于此

    作為切入一道賽題的基礎,賽題理解是極其重要的,對于賽題的理解甚至會影響后續的特征工程構建以及模型的選擇,最主要是會影響后續發展工作的方向,比如挖掘特征的方向或者存在問題解決問題的方向,對了賽題背后的思想以及賽題業務邏輯的清晰,也很有利于花費更少時間構建更為有效的特征模型,賽題理解要達到的地步是什么呢,把一道賽題轉化為一種宏觀理解的解決思路。 以下將從多方面對于此進行說明:

  • 賽題理解究竟是理解什么: 理解賽題是不是把一道賽題的背景介紹讀一遍就OK了呢?并不是的,理解賽題其實也是從直觀上梳理問題,分析問題是否可行的方法,有多少可行度,賽題做的價值大不大,理清一道賽題要從背后的賽題背景引發的賽題任務理解其中的任務邏輯,可能對于賽題有意義的外在數據有哪些,并對于賽題數據有一個初步了解,知道現在和任務的相關數據有哪些,其中數據之間的關聯邏輯是什么樣的。 對于不同的問題,在處理方式上的差異是很大的。如果用簡短的話來說,并且在比賽的角度或者做工程的角度,就是該賽題符合的問題是什么問題,大概要去用哪些指標,哪些指標是否會做到線上線下的一致性,是否有效的利于我們進一步的探索更高線上分數的線下驗證方法,在業務上,你是否對很多原始特征有很深刻的了解,并且可以通過EDA來尋求他們直接的關系,最后構造出滿意的特征。

  • 有了賽題理解后能做什么: 在對于賽題有了一定的了解后,分析清楚了問題的類型性質和對于數據理解的這一基礎上,是不是賽題理解就做完了呢? 并不是的,就像摸清了敵情后,我們至少就要有一些相應的理解分析,比如這題的難點可能在哪里,關鍵點可能在哪里,哪些地方可以挖掘更好的特征,用什么樣得線下驗證方式更為穩定,出現了過擬合或者其他問題,估摸可以用什么方法去解決這些問題,哪些數據是可靠的,哪些數據是需要精密的處理的,哪部分數據應該是關鍵數據(背景的業務邏輯下,比如CTR的題,一個尋常顧客大體會有怎么樣的購買行為邏輯規律,或者風電那種題,如果機組比較鄰近,相關一些風速,轉速特征是否會很近似)。這時是在一個宏觀的大體下分析的,有助于摸清整個題的思路脈絡,以及后續的分析方向。

  • 賽題理解的-評價指標: 為什么要把這部分單獨拿出來呢,因為這部分會涉及后續模型預測中兩個很重要的問題: 1. 本地模型的驗證方式,很多情況下,線上驗證是有一定的時間和次數限制的,所以在比賽中構建一個合理的本地的驗證集和驗證的評價指標是很關鍵的步驟,能有效的節省很多時間。 2. 不同的指標對于同樣的預測結果是具有誤差敏感的差異性的,比如AUC,logloss, MAE,RSME,或者一些特定的評價函數。是會有很大可能會影響后續一些預測的側重點。

  • 賽題背景中可能潛在隱藏的條件: 其實賽題中有些說明是很有利益-都可以在后續答辯中以及問題思考中所體現出來的,比如高效性要求,比如對于數據異常的識別處理,比如工序流程的差異性,比如模型運行的時間,比模型的魯棒性,有些的意識是可以貫穿問題思考,特征,模型以及后續處理的,也有些會對于特征構建或者選擇模型上有很大益處,反過來如果在模型預測效果不好,其實有時也要反過來思考,是不是賽題背景有沒有哪方面理解不清晰或者什么其中的問題沒考慮到。

  • 4 問題記錄

  • EDA是什么?
  • 分類評價指標的含義沒有去理解?
  • 作者寫下的經驗總結,后期需再看
  • 總結

    以上是生活随笔為你收集整理的Task 1 天池赛 - 二手车交易价格预测的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 九热在线| 日韩一二区| 大尺度床戏揉捏胸视频 | 中文无码精品一区二区三区 | 少妇特黄一区二区 | av小片 | 成年人网站免费在线观看 | 国产精品国产精品国产 | 99这里只有 | 超薄肉色丝袜一区二区 | av站 | 狠狠久久久 | 欧美视频日韩视频 | 99riav国产在线观看 | 精品久久九九 | 深夜成人在线观看 | 日韩精品麻豆 | 国产精品亚洲αv天堂无码 伊人性视频 | 91免费视频国产 | 日韩视频免费在线播放 | 亚洲精品中文字幕乱码三区91 | 一级美女黄色片 | 亚洲性xx| 又色又爽又黄 | 谁有免费的黄色网址 | 极品91尤物被啪到呻吟喷水 | 国产春色 | 91刺激视频| 久久久久国产精品视频 | www夜夜操| 国产3区| 美女扒开内裤让男人捅 | 在线a级| 亚洲视频区 | 91成人在线免费 | 日韩一级黄色大片 | 在线视频1卡二卡三卡 | 18成人免费观看网站下载 | 男人天堂网在线视频 | 免费av网站在线 | 日本伊人久久 | 日本精品一区在线观看 | 久久久久久久久国产 | 青青青视频免费 | 熟妇人妻精品一区二区三区视频 | 91蝌蚪网 | 成人精品视频一区 | 天海翼av在线播放 | 18成人免费观看网站下载 | 激情欧美一区二区三区精品 | 日本福利小视频 | 久久影院午夜 | 中文字幕精品久久 | 久久亚洲av午夜福利精品一区 | 欧美大肚乱孕交hd孕妇 | 全部孕妇毛片丰满孕妇孕交 | 日韩精品视频久久 | 肉色丝袜小早川怜子av | 可以看的黄色网 | 久久丫精品 | 免费一级毛片麻豆精品 | 欧美aa | 91免费版黄 | 人妻大战黑人白浆狂泄 | 日韩av毛片 | 99久久精品免费看国产 | 欧美日韩国产图片 | 成人国产精品久久久 | 野外吮她的花蒂高h在线观看 | 最好看的2019年中文视频 | 成人欧美在线 | av资源免费看 | 亚洲精品影院在线 | 五月av在线 | 波多在线观看 | 色妞色视频一区二区三区四区 | jizz内谢中国亚洲jizz | 精品美女久久久久 | missav | 免费高清av在线看 | 夜夜嗨av一区二区三区四区 | 午夜精品一区二区三区在线 | 成人片在线视频 | 亚洲视频自拍偷拍 | 69精品无码成人久久久久久 | 欧美精品一区二区三区三州 | 亚洲色图21p | 亚洲黄色免费观看 | 日韩av一区二区在线观看 | 国产午夜麻豆影院在线观看 | 日韩精品一区二区三区电影 | 精品无码一区二区三区 | 久久国产精品一区二区三区 | 黄网址在线 | 怡春院国产 | 国产在线观看黄色 | 亚洲综合在线视频 | 国产有码在线观看 | 国产视频www | 色开心 |