高考与机器学习训练测试
機器學習的一個前提是有大量的數據,機器學習的過程就是對這些大量數據進行學習訓練,獲得一個能用于預測的模型,從而在面對新的數據時,我們能進行準確的預測。
怎么理解呢?
回想我們讀高三的時候,是不是每天都在做題,為最后的高考做準備。我們從題庫中不斷學習,不斷做題,然后就掌握了各種知識和一些解題方法,最后在高考中取得好成績,考上了清華北大,985,211。
機器學習的大量數據就好像是高三的題庫,而對大量數據的學習就是針對題庫中的各種題目進行做題訓練,獲得的訓練模型就是我們掌握的知識和解題方法,新的數據就是高考,準確的預測就是在高考中取得好成績。如果考上了清華北大,說明知識和解題方法掌握的好,也就是機器學習算法模型訓練效果好,如果只是考上了二本、三本,說明知識和解題方法掌握的一般,也就是機器學習算法模型訓練效果一般。
高三的這個題庫就是用來訓練我們的,對應在機器學習中的名稱就是“訓練集(training set)”,高考試卷就是用來測試我們的最終學習效果的,對應在機器學習中的名稱就是“測試集(test set)”。
注意上面加粗的部分“最終學習效果”,為什么?因為高考是一考定終生,你只能參加一次。當然現在可以復讀,但復讀的話就是一年的青春耗費,況且下一年高考發揮怎樣并不知道,這個機會成本實在是太高。所以,我們在做題訓練的過程中,有一個重要的手段,那就是:
模擬考試。
這個模擬考試還有好多次,有一模考試,二模考試,三模考試等。通過模擬考試,我們有了學習效果的反饋,不斷查漏補缺,最后上了高考考場,就不慌了,可以從容應對了。
在機器學習中,“模擬考試”同樣有一個對應的名稱“驗證集(validation set)”,在用訓練集訓練模型的過程中,不斷通過驗證集對模型進行驗證,獲得訓練效果的反饋。于是,在最后用測試集進行測試時,就能取得滿意的成績。
那么在機器學習中,訓練集、測試集、驗證集從何而來呢?
前面提過,機器學習的一個前提是有大量的數據,這個大量數據就是高三題庫,這個題庫就可以作為我們的訓練集。那測試集和驗證集呢?
我們知道高考是由國家或省里專門的命題組出題的,而在機器學習中有點不同的是,出題人一般也就是組織訓練的人,你可以理解為:高考出題人就是你們的高三老師。
那高三老師怎么出高考題呢,他比較偷懶,還是直接用那個題庫,把一小部分題目篩選出來,作為高考的試卷題目,也就是測試集(test set)。注意因為是高考試卷,要嚴格保密,不然犯法的。所以你平時做題訓練時是看不到這些題目的,同樣在機器學習中訓練過程也是看不到測試集的。
然后刨除測試集后的題庫,剩下的就是“訓練集(training set)”了,也就是你平時做的各種訓練題。然后高三老師在這個訓練題的基礎上,再劃出一小部分,作為模擬考試的試卷題目,也就是“驗證集(validation set)”。注意這個模擬考試的題目就是從你平時做題訓練中的題目中選出來的,所以你平時做題訓練時是可以接觸到這些題目的,同樣在機器學習中訓練過程也是可以接觸驗證集的。由于驗證集是從訓練集中切分出來的,所以驗證集屬于訓練集。而訓練集和測試集統稱為“數據集(data set)”,也就是那個高三題庫。畫出圖就是這樣:
最后總結下:
訓練集 = 訓練題庫
驗證集 = 模擬試卷
測試集 = 高考試卷
數據集 = 訓練集(含驗證集) + 測試集
參考文獻:https://zhuanlan.zhihu.com/p/25992568
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的高考与机器学习训练测试的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你绝对能懂的“机器学习”(五)
- 下一篇: 图论(八)最小生成树