机器学习的一些注意事项
生活随笔
收集整理的這篇文章主要介紹了
机器学习的一些注意事项
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Single number evaluation metric
建一個評估指標。可以是準確率、召回率、F1 score。
Satisficing and Optimizing metric
很多時候我們需要協調多個因素,達到自己的目的。例如貓分類器,我們想要準確率,又想要運行時間快。這個時候我們可以設立一個目標score=accuracy-0.5*runtime。我們非常在意,想要非常非常高的那個指標稱為Optimizing metric,這里準確率就是。那些我們認為達到一定值就可以的指標,稱為Satisficing metric。例如運行時間,只要在100ms之內,至于是80ms還是90ms都可以。
關于訓練集
數據集分為訓練集、交叉驗證集、測試集。每個數據集的數據分布應該是相同的。
在數據量百萬以下,訓練集/測試集=7/3,訓練集/交叉驗證集/測試集=6/2/2。
如果數據量非常大,大于百萬,則可以訓練集/交叉驗證集/測試集=98/1/1。
交叉驗證集(dev set):目的是用來調整模型參數。
測試集的目的是:在模型訓練完成,應用在實際系統前,評估一下模型的優劣,給自己增加自信心。一般來講10,000訓練樣本或者100,000訓練樣本足以。如果你對這個值非常非常看重,可以增加測試集的樣本量。
參考文獻:
1 文章內容來源于Structuring Machine Learning Projects.
總結
以上是生活随笔為你收集整理的机器学习的一些注意事项的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python抓取网站URL小工具
- 下一篇: OpenSSL以及私有CA的搭建