日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

引号吃掉了我的数据~~~

發(fā)布時間:2025/3/15 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 引号吃掉了我的数据~~~ 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

生物信息學(xué)習(xí)的正確姿勢

NGS系列文章包括NGS基礎(chǔ)、轉(zhuǎn)錄組分析?(Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細(xì)胞測序分析?(重磅綜述:三萬字長文讀懂單細(xì)胞RNA測序分析的最佳實(shí)踐教程 (原理、代碼和評述))、DNA甲基化分析、重測序分析、GEO數(shù)據(jù)挖掘(典型醫(yī)學(xué)設(shè)計實(shí)驗GEO數(shù)據(jù)分析 (step-by-step) - Limma差異分析、火山圖、功能富集)等內(nèi)容。

在前天的文章中送書 | 耗時很長的程序忘加nohup就運(yùn)行了怎么辦?,有一位朋友留言提到了Excel的一個坑,這個之前也專門有文章(Excel改變了你的基因名,30% 相關(guān)Nature文章受影響,NCBI也受波及)講述。

這讓我想起來很早之前碰到的一個關(guān)于基因名的詭異問題,數(shù)千個基因讀進(jìn)來的數(shù)據(jù)框只有幾百行,head和tail查看都沒問題,問題出現(xiàn)在中間部分基因存在的引號上面了。

以下面這個簡單數(shù)據(jù)為例子看下是怎么回事?

text <- "Gene;Samp1;Samp2 Pou5f1;23;34 Acg't;22;21 Deg;33;34 Oct'4;25;27 Sox2;12;13"

讀入數(shù)據(jù),查看下

data <- read.table(text=text, sep=";", row.names=1, header=T)data

5個基因,讀進(jìn)去之后只有3個了。

Samp1 Samp2 Pou5f1 23 34 Acgt;22;21\nDeg;33;34\nOct4 25 27 Sox2 12 13

原來是引號在搞鬼,R默認(rèn)在遇到引號時會認(rèn)為兩個引號中間的字符屬于同一列。這樣做的好處是某一列的內(nèi)容中可包含列分隔符而不影響數(shù)據(jù)讀取,壞處如上。

因為通常遇到的數(shù)據(jù)是不會在列內(nèi)容中包含引號的,所以quote=""成了我讀取數(shù)據(jù)的標(biāo)配,盡量不再被這個問題困擾。comment=""也是類似 (默認(rèn)#開頭的行會被忽略,有沒有因此丟失過行呢?)。

data <- read.table(text=text, sep=";", row.names=1, quote="", header=T, comment="")data

讀進(jìn)來,數(shù)據(jù)如下,問題解決

Samp1 Samp2 Pou5f1 23 34 Acg't 22 21 Deg 33 34 Oct'4 25 27 Sox2 12 13

往期精品(點(diǎn)擊圖片直達(dá)文字對應(yīng)教程)

后臺回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集

封面來自:https://pixabay.com/illustrations/quote-bubble-circle-talk-text-1375858/

總結(jié)

以上是生活随笔為你收集整理的引号吃掉了我的数据~~~的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。