當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

引号吃掉了我的数据~~~

發布時間：2025/3/15 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了引号吃掉了我的数据~~~ 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

生物信息學習的正確姿勢

NGS系列文章包括NGS基礎、轉錄組分析?（Nature重磅綜述|關于RNA-seq你想知道的全在這）、ChIP-seq分析?（ChIP-seq基本分析流程）、單細胞測序分析?(重磅綜述：三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程（原理、代碼和評述）)、DNA甲基化分析、重測序分析、GEO數據挖掘（典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集）等內容。

在前天的文章中送書 | 耗時很長的程序忘加nohup就運行了怎么辦？，有一位朋友留言提到了Excel的一個坑，這個之前也專門有文章(Excel改變了你的基因名，30% 相關Nature文章受影響，NCBI也受波及)講述。

這讓我想起來很早之前碰到的一個關于基因名的詭異問題，數千個基因讀進來的數據框只有幾百行，head和tail查看都沒問題，問題出現在中間部分基因存在的引號上面了。

以下面這個簡單數據為例子看下是怎么回事？

text <- "Gene;Samp1;Samp2 Pou5f1;23;34 Acg't;22;21 Deg;33;34 Oct'4;25;27 Sox2;12;13"

讀入數據，查看下

data <- read.table(text=text, sep=";", row.names=1, header=T)data

5個基因，讀進去之后只有3個了。

Samp1 Samp2 Pou5f1 23 34 Acgt;22;21\nDeg;33;34\nOct4 25 27 Sox2 12 13

原來是引號在搞鬼，R默認在遇到引號時會認為兩個引號中間的字符屬于同一列。這樣做的好處是某一列的內容中可包含列分隔符而不影響數據讀取，壞處如上。

因為通常遇到的數據是不會在列內容中包含引號的，所以quote=""成了我讀取數據的標配，盡量不再被這個問題困擾。comment=""也是類似 (默認#開頭的行會被忽略，有沒有因此丟失過行呢？)。

data <- read.table(text=text, sep=";", row.names=1, quote="", header=T, comment="")data

讀進來，數據如下，問題解決

Samp1 Samp2 Pou5f1 23 34 Acg't 22 21 Deg 33 34 Oct'4 25 27 Sox2 12 13

往期精品(點擊圖片直達文字對應教程)

后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集

封面來自：https://pixabay.com/illustrations/quote-bubble-circle-talk-text-1375858/

總結

以上是生活随笔為你收集整理的引号吃掉了我的数据~~~的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：恭喜上周2期R和Python送书的8位中
下一篇：学会这个BBC，你的图也可以上新闻啦！