日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何划分机器学习的训练集和测试集

發(fā)布時間:2023/12/31 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何划分机器学习的训练集和测试集 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

使用機器學(xué)習(xí)算法時,通常需要把數(shù)據(jù)分為訓(xùn)練集和測試集,本文介紹R語言的三種實現(xiàn)方法,并通過示例進行學(xué)習(xí)。

使用R內(nèi)置方法

依據(jù)sample函數(shù)生成指定概率的true和false的向量,然后利用該向量過濾數(shù)據(jù)集得到訓(xùn)練集和測試集,語法如下:

# 設(shè)置隨機種子,使得示例可以重復(fù) set.seed(1)# df是要分割的數(shù)據(jù)集 # 使用 70% 數(shù)據(jù)集作為訓(xùn)練集,30% 作為測試集 sample <- sample(c(TRUE, FALSE), nrow(df), replace=TRUE, prob=c(0.7,0.3)) train <- df[sample, ] test <- df[!sample, ]

下面示例把iris數(shù)據(jù)分為訓(xùn)練集和測試集:

# 設(shè)置隨機種子,使得示例可以重復(fù) set.seed(1)data(iris)# 使用 70% 數(shù)據(jù)集作為訓(xùn)練集,30% 作為測試集 sample <- sample(c(TRUE, FALSE), nrow(iris), replace=TRUE, prob=c(0.7,0.3)) train <- iris[sample, ] test <- iris[!sample, ]dim(iris) # 150 5dim(train) # 106 5dim(test) # 44 5

從輸出可以看到,總共150條記錄,訓(xùn)練集大概包括 106 / 150 = 70.6% 。

使用caTools包

使用caTools包提供了sample.split函數(shù),可以輕松進行數(shù)據(jù)分離。
subset函數(shù)返回滿足條件的向量、矩陣或數(shù)據(jù)幀的子集,subset(x, subset, ...) 其中subset參數(shù)指定過濾條件:

library(caTools)# 設(shè)置隨機種子,使得示例可以重復(fù) set.seed(1)# df是要分割的數(shù)據(jù)集 # 使用 70% 數(shù)據(jù)集作為訓(xùn)練集,30% 作為測試集 sample <- sample.split(df$any_column, SplitRatio = 0.7) train <- subset(df, sample == TRUE) test <- subset(df, sample == FALSE)

我們用這種方法對iris數(shù)據(jù)集進行劃分:

# 設(shè)置隨機種子,使得示例可以重復(fù) data(iris) set.seed(2)# df是要分割的數(shù)據(jù)集 # 使用 70% 數(shù)據(jù)集作為訓(xùn)練集,30% 作為測試集 sample <- sample.split(iris$Species, SplitRatio = 0.7)train <- subset(iris, sample == TRUE) test <- subset(iris, sample == FALSE)dim(iris) # 150 5dim(train) # 105 5dim(test) # 45 5

運行結(jié)果與上面示例差不多,需要說明的是sample.split函數(shù),其語法如下:sample.split( Y, SplitRatio = 2/3, group = NULL )

其中Y為x向量類型,因此需要隨意指定數(shù)據(jù)集的一列生成向量,SplitRatio有默認值。

使用dplyr包

下面我們來看看如何使用dplyr包實現(xiàn)同樣功能。

library(dplyr)# 設(shè)置隨機種子,使得示例可以重復(fù) set.seed(1)df <- iris# 依據(jù)數(shù)據(jù)集總行數(shù)生成序號 df$id <- 1:nrow(df)# 使用 70% 數(shù)據(jù)集作為訓(xùn)練集,30% 作為測試集 train <- df %>% dplyr::slice_sample(prop = 0.70)# 反向連接生成測試機 test <- dplyr::anti_join(df, train, by = 'id')dim(iris) # 150 5dim(train) # 105 5dim(test) # 45 5

生成結(jié)果與上面一致,我們說明下slice_sample()函數(shù),用于隨機選擇行,語法如下:

slice_sample(.data, ..., n, prop, weight_by = NULL, replace = FALSE)

  • prop 用于指定概率
  • n 指定數(shù)量
  • replace 是否放回抽樣,默認不放回

總結(jié)

以上是生活随笔為你收集整理的如何划分机器学习的训练集和测试集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。