如何划分机器学习的训练集和测试集
使用機器學(xué)習(xí)算法時,通常需要把數(shù)據(jù)分為訓(xùn)練集和測試集,本文介紹R語言的三種實現(xiàn)方法,并通過示例進行學(xué)習(xí)。
使用R內(nèi)置方法
依據(jù)sample函數(shù)生成指定概率的true和false的向量,然后利用該向量過濾數(shù)據(jù)集得到訓(xùn)練集和測試集,語法如下:
# 設(shè)置隨機種子,使得示例可以重復(fù) set.seed(1)# df是要分割的數(shù)據(jù)集 # 使用 70% 數(shù)據(jù)集作為訓(xùn)練集,30% 作為測試集 sample <- sample(c(TRUE, FALSE), nrow(df), replace=TRUE, prob=c(0.7,0.3)) train <- df[sample, ] test <- df[!sample, ]下面示例把iris數(shù)據(jù)分為訓(xùn)練集和測試集:
# 設(shè)置隨機種子,使得示例可以重復(fù) set.seed(1)data(iris)# 使用 70% 數(shù)據(jù)集作為訓(xùn)練集,30% 作為測試集 sample <- sample(c(TRUE, FALSE), nrow(iris), replace=TRUE, prob=c(0.7,0.3)) train <- iris[sample, ] test <- iris[!sample, ]dim(iris) # 150 5dim(train) # 106 5dim(test) # 44 5從輸出可以看到,總共150條記錄,訓(xùn)練集大概包括 106 / 150 = 70.6% 。
使用caTools包
使用caTools包提供了sample.split函數(shù),可以輕松進行數(shù)據(jù)分離。
subset函數(shù)返回滿足條件的向量、矩陣或數(shù)據(jù)幀的子集,subset(x, subset, ...) 其中subset參數(shù)指定過濾條件:
我們用這種方法對iris數(shù)據(jù)集進行劃分:
# 設(shè)置隨機種子,使得示例可以重復(fù) data(iris) set.seed(2)# df是要分割的數(shù)據(jù)集 # 使用 70% 數(shù)據(jù)集作為訓(xùn)練集,30% 作為測試集 sample <- sample.split(iris$Species, SplitRatio = 0.7)train <- subset(iris, sample == TRUE) test <- subset(iris, sample == FALSE)dim(iris) # 150 5dim(train) # 105 5dim(test) # 45 5運行結(jié)果與上面示例差不多,需要說明的是sample.split函數(shù),其語法如下:sample.split( Y, SplitRatio = 2/3, group = NULL )
其中Y為x向量類型,因此需要隨意指定數(shù)據(jù)集的一列生成向量,SplitRatio有默認值。
使用dplyr包
下面我們來看看如何使用dplyr包實現(xiàn)同樣功能。
library(dplyr)# 設(shè)置隨機種子,使得示例可以重復(fù) set.seed(1)df <- iris# 依據(jù)數(shù)據(jù)集總行數(shù)生成序號 df$id <- 1:nrow(df)# 使用 70% 數(shù)據(jù)集作為訓(xùn)練集,30% 作為測試集 train <- df %>% dplyr::slice_sample(prop = 0.70)# 反向連接生成測試機 test <- dplyr::anti_join(df, train, by = 'id')dim(iris) # 150 5dim(train) # 105 5dim(test) # 45 5生成結(jié)果與上面一致,我們說明下slice_sample()函數(shù),用于隨機選擇行,語法如下:
slice_sample(.data, ..., n, prop, weight_by = NULL, replace = FALSE)
- prop 用于指定概率
- n 指定數(shù)量
- replace 是否放回抽樣,默認不放回
總結(jié)
以上是生活随笔為你收集整理的如何划分机器学习的训练集和测试集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android集成腾讯X5WebView
- 下一篇: 随机微分方程学习笔记01 相对布朗运动的