日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

网格搜索和交叉验证

發(fā)布時間:2023/12/10 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 网格搜索和交叉验证 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Grid Search 網(wǎng)格搜索

網(wǎng)格搜索是一種常用的調(diào)參手段,是一種窮舉方法。給定一系列超參,然后再所有超參組合中窮舉遍歷,從所有組合中選出最優(yōu)的一組超參數(shù),其實(shí)就是暴力方法在全部解中找最優(yōu)解。從所有的參數(shù)中找到在驗(yàn)證集上精度最高的參數(shù),這其實(shí)是一個訓(xùn)練和比較的過程。

為什么叫網(wǎng)格搜索,因?yàn)榧僭O(shè)有兩個超參,每個超參都有一組候選參數(shù)。這兩組候選參數(shù)可以兩兩組合,把所有組合列出來就是一個二維的網(wǎng)格(多個超參兩兩組合可以看作是崗高維空間的網(wǎng)格),遍歷網(wǎng)格中的所有節(jié)點(diǎn),選出最優(yōu)解。所以叫網(wǎng)格搜索。

當(dāng)超參數(shù)的數(shù)量增長時,網(wǎng)格搜索的計(jì)算復(fù)雜度會呈現(xiàn)指數(shù)增長,這時候則使用**隨機(jī)搜索**RandomizedSearch ### sklearn里的兩個調(diào)參函數(shù) GridSearchCV 與 RandomizedSearchCV 前者是網(wǎng)格搜索,后者是隨機(jī)搜索(其實(shí)兩個后邊跟的CV就是下邊要說的交叉驗(yàn)證),這里我們看下GridSearchCV函數(shù):

sklearn.model_selection.GridSearchCV(estimator,param_grid,cv)

estimator:估計(jì)器對象
param_grid:估計(jì)器參數(shù),參數(shù)名稱(字符串)作為key,要測試的參數(shù)列表作為value的字典,或這樣的字典構(gòu)成的列表
cv:整型,指定K折交叉驗(yàn)證
方法
fit:輸入訓(xùn)練數(shù)據(jù)
score:準(zhǔn)確率
best_score_:交叉驗(yàn)證中測試的最好的結(jié)果
best_estimator_:交叉驗(yàn)證中測試的最好的參數(shù)模型
best_params_:交叉驗(yàn)證中測試的最好的參數(shù)
cv_results_:每次交叉驗(yàn)證的結(jié)果

交叉驗(yàn)證cross validation

如果給定的樣本數(shù)據(jù)充足,進(jìn)行模型選擇的 種簡單方法是隨機(jī)地將數(shù)據(jù)集切分成三部分,分別為訓(xùn)練集(training set )、驗(yàn)證集(validation set )和測試集 (tesset )。訓(xùn)練集用來訓(xùn)練模型,驗(yàn)證集用于模型的選擇,而測試集用于最終對學(xué)習(xí)方法的評估。在學(xué)習(xí)到的不同復(fù)雜度的模型中 選擇對驗(yàn)證集有最小預(yù)測誤差的模型由于驗(yàn)證集有足夠多 的數(shù)據(jù),用它對模型進(jìn)行選擇也是有效的。
但是,在許多實(shí)際應(yīng)用中數(shù)據(jù)是不充足的。為了選擇好的模型,可以采用 交叉驗(yàn)證方法 交叉驗(yàn)證的基本想法是重復(fù)地使用數(shù)據(jù):把給定的數(shù)據(jù)進(jìn)行切分,將切分的數(shù)據(jù)集組合為訓(xùn)練集與測試集,在此基礎(chǔ)上反復(fù)地進(jìn)行訓(xùn)練、測試以及模型選擇。

  • 簡單交叉驗(yàn)證
    簡單交叉驗(yàn)證方法是 首先隨機(jī)地將己給數(shù)據(jù)分為兩部分,一部分作為訓(xùn)練集,另一部分作為測試集(例如, 70% 的數(shù)據(jù)為訓(xùn)練集, 30% 的數(shù)據(jù)為測試集〉;然后用訓(xùn)練集在各種條件下(例如,不同的參數(shù)個數(shù))訓(xùn)練模型,從而得到不同的模型:在測試集上評價各個模型的測試誤差,選山測試誤差最小的模型。
  • S折交叉驗(yàn)證
    應(yīng)用最多的是S折交叉驗(yàn)證 (S-fold cross validation) 方法如下:首先隨機(jī)地將已給數(shù)據(jù)切分為S個互不相交、大小相同的子集:然后利用 S-1個子集的數(shù)據(jù)訓(xùn)練模型,利用余下的子集測試模型:將這一過程對可能的S種選擇重復(fù)進(jìn)行;最后選出S次評測中平均測試誤差最小的模型。
    以10折交叉驗(yàn)證為例,如下圖所示。
  • 步驟如下: a. 將數(shù)據(jù)集平均分成不相交的10個子集 b. 每一次挑選其中的1份作為測試集,其余的9份作為訓(xùn)練集進(jìn)行模型訓(xùn)練,得到模型的指標(biāo) c. 重復(fù)第2步10次,使每個子集都作為1次測試集,得到10個模型的指標(biāo) d. 將10個模型指標(biāo)取平均值,作為10折交叉驗(yàn)證的模型的指標(biāo) 3. **留一交叉驗(yàn)證** S折交叉驗(yàn)證的特殊情形是 S=N,稱為留一交叉驗(yàn)證 (leave-one-out cro validation ),往往在數(shù)據(jù)缺乏的情況下使用。這里,N是給定數(shù)據(jù)集的容量

    交叉驗(yàn)證的好處在于:

    1.可以保證所有數(shù)據(jù)都有被訓(xùn)練和驗(yàn)證的機(jī)會,也盡最大可能讓優(yōu)化的模型性能表現(xiàn)的更加可信;
    2.從有限的學(xué)習(xí)數(shù)據(jù)獲取盡可能多的有效信息;
    3.可以在一定程度上避免過擬合的問題。

    參考:https://www.cnblogs.com/wj-1314/p/10422159.html

    總結(jié)

    以上是生活随笔為你收集整理的网格搜索和交叉验证的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。