机器学习系列补充:数据集准备和更正YSX包
之前的教程中提到了數(shù)據(jù)下載鏈接,但未提供整理好后的數(shù)據(jù)。后臺(tái)總有朋友問起,提供數(shù)據(jù)網(wǎng)盤容易失效,就把整理方法放在這,可基于原始鏈接下載后轉(zhuǎn)換為所需格式。
安裝YSX包 (已改名為ImageGP包)
YSX包已改名為ImageGP包,這是為配合繪圖網(wǎng)站ImageGP而構(gòu)建的包,里面也包含了對(duì)常用繪圖函數(shù)和數(shù)據(jù)整理命令的包裝,在整個(gè)機(jī)器學(xué)習(xí)教程中也常有用到。
ImageGP包目前在Github和碼云上都有,推薦用碼云,下載速度快。
devtools::install_git("https://gitee.com/ct586/ImageGP")# 安裝好之后,之前教程的library(YSX)都改為library(ImageGP) library("ImageGP")改名是因?yàn)橹耙粋€(gè)誤操作,在YSX倉(cāng)庫(kù)里面引入了不少示例數(shù)據(jù),使得包變得很大。而Github又訪問速度慢,常常安裝不成功。
# 如果從Github上安裝原有的`YSX`也可以: # 不推薦 # devtools::install_github("Tong-Chen/YSX")DLBCL 數(shù)據(jù)集
數(shù)據(jù)信息在頁(yè)面https://file.biolab.si/biolab/supp/bi-cancer/projections/info/DLBCL.html
Diffuse large B-cell lymphoma (DLBCL): 58 examples (75.3%); Follicular lymphoma (FL): 19 examples (24.7%)。
可通過鏈接下載https://file.biolab.si/biolab/supp/bi-cancer/projections/_datasets/DLBCL.tab。
下載后,刪除第2行和第3行。
再用下面的R代碼讀取和整理
dlbcl_tab <- "DLBCL.tab" dlblc <- read.table(dlbcl_tab, row.names = NULL, header=T) dim(dlblc)class = dlblc$class table(class)生成Metadata信息
metadata = data.frame(sample=c(paste("DLBCL", 1:58, sep="_"), paste("FL", 1:19, sep="_")),class=class) head(metadata)write.table(metadata, "dlbcl.metadata.txt", sep="\t", row.names=F, col.names = T, quote=F)生成表達(dá)文件
rownames(dlblc) <- metadata$sample dlblc <- dlblc[,1:7070] dlblc <- t(dlblc) dlblc[1:3,1:4]library(ImageGP) sp_writeTable(dlblc, file="dlblc.expr.txt", keep_rownames = T)機(jī)器學(xué)習(xí)系列教程
從隨機(jī)森林開始,一步步理解決策樹、隨機(jī)森林、ROC/AUC、數(shù)據(jù)集、交叉驗(yàn)證的概念和實(shí)踐。
文字能說清的用文字、圖片能展示的用、描述不清的用公式、公式還不清楚的寫個(gè)簡(jiǎn)單代碼,一步步理清各個(gè)環(huán)節(jié)和概念。
再到成熟代碼應(yīng)用、模型調(diào)參、模型比較、模型評(píng)估,學(xué)習(xí)整個(gè)機(jī)器學(xué)習(xí)需要用到的知識(shí)和技能。
機(jī)器學(xué)習(xí)算法 - 隨機(jī)森林之決策樹初探(1)
機(jī)器學(xué)習(xí)算法-隨機(jī)森林之決策樹R 代碼從頭暴力實(shí)現(xiàn)(2)
機(jī)器學(xué)習(xí)算法-隨機(jī)森林之決策樹R 代碼從頭暴力實(shí)現(xiàn)(3)
機(jī)器學(xué)習(xí)算法-隨機(jī)森林之理論概述
隨機(jī)森林拖了這么久,終于到實(shí)戰(zhàn)了。先分享很多套用于機(jī)器學(xué)習(xí)的多種癌癥表達(dá)數(shù)據(jù)集 https://file.biolab.si/biolab/supp/bi-cancer/projections/。
機(jī)器學(xué)習(xí)算法-隨機(jī)森林初探(1)
機(jī)器學(xué)習(xí) 模型評(píng)估指標(biāo) - ROC曲線和AUC值
機(jī)器學(xué)習(xí) - 訓(xùn)練集、驗(yàn)證集、測(cè)試集
機(jī)器學(xué)習(xí) - 隨機(jī)森林手動(dòng)10 折交叉驗(yàn)證
一個(gè)函數(shù)統(tǒng)一238個(gè)機(jī)器學(xué)習(xí)R包,這也太贊了吧
基于Caret和RandomForest包進(jìn)行隨機(jī)森林分析的一般步驟 (1)
Caret模型訓(xùn)練和調(diào)參更多參數(shù)解讀(2)
機(jī)器學(xué)習(xí)相關(guān)書籍分享
基于Caret進(jìn)行隨機(jī)森林隨機(jī)調(diào)參的4種方式
送你一個(gè)在線機(jī)器學(xué)習(xí)網(wǎng)站,真香!
UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集
機(jī)器學(xué)習(xí)第17篇 - 特征變量篩選(1)
機(jī)器學(xué)習(xí)第18篇 - Boruta特征變量篩選(2)
總結(jié)
以上是生活随笔為你收集整理的机器学习系列补充:数据集准备和更正YSX包的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习算法-随机森林之理论概述
- 下一篇: Cell子刊:盗梦空间成真,科学家成功进