处理tcga突变数据一点思考
TCGA突變數(shù)據(jù)
- 寫在前面
- 泛癌mc3作圖
- 學(xué)到的額外知識點(diǎn)
- 使用TCGAbiolinks下載數(shù)據(jù)
- TCGA關(guān)于maf的注釋
- 代碼文件夾命名最好還是以英文命名,中文命名經(jīng)常會出現(xiàn)錯(cuò)誤
- GTF文件有的以、t,有的以;分割
- perl 一行式
- 基因命名方式
- 未解決問題
寫在前面
大概是在利用xena網(wǎng)站的數(shù)據(jù)作圖時(shí),碰到一些問題。一個(gè)是xena下載的數(shù)據(jù)不能直接作為maf文件,需要稍微做點(diǎn)變換,這個(gè)好解決,不好解決的是關(guān)于變異類型存在的問題。
vaf的說明參考:https://byteofbio.com/archives/7.html#:~:text=VAF%20%E7%9A%84%E5%85%A8%E7%A7%B0%E6%98%AF%20Variant%20Allele%20Frequency%20%EF%BC%88%20%E5%8F%98%E5%BC%82%E7%AD%89%E4%BD%8D%E5%9F%BA%E5%9B%A0%E9%A2%91%E7%8E%87%20%EF%BC%89%E6%88%96,p%20t%20h%20%3D%20A%20D%20D%20P
3‘5’端說明:查看知乎,說是在核苷酸連接磷酸基團(tuán)的那端我們稱為 5‘ 端,連接著羥基的那端稱為 3’ 端。
變異信息一些說明(ANNOVAR結(jié)果說明-SNP/INDEL):https://www.jianshu.com/p/6c11fe689bac
泛癌mc3作圖
瀑布圖結(jié)果:
圖表中沒有multi_hit信息,但注釋有,而且自己的文件存在這樣一些問題
就是某個(gè)一個(gè)基因有多個(gè)突變,但是數(shù)據(jù)將其放在一塊了,就會變得非常奇怪,在變異列中會非常擠,且讓我們損失部分信息。
嘗試下從GDC平臺下載的數(shù)據(jù)處理會不會有這樣的問題;
從GDC平臺下載的數(shù)據(jù)處理不會有上述effect的問題,但問題在于做了處理后畫不出來oncoplot圖,原因應(yīng)該是effect命名方式不一致,這可能說明需要重新更改effect的命名規(guī)則,而這個(gè)multi_hit問題也還是存在著
針對上面這個(gè)問題,下載GDCMUTEct2的數(shù)據(jù)不會有這個(gè)問題,但effect還是這樣子,不符合規(guī)范
作圖時(shí)
學(xué)到的額外知識點(diǎn)
一個(gè)是VAF,這個(gè)屬于突變堿基占該位點(diǎn)堿基比例。
使用TCGAbiolinks下載數(shù)據(jù)
果子前輩的教程是真的好用:https://mp.weixin.qq.com/s/rdFnq6jCMIjmrWI8A8fS5g
只是安裝最新版TCGAbiolinks時(shí),更新R版本,中間遇到了R包老的問題,頭疼了一陣,但是后面也都解決了,因?yàn)檫@個(gè)大概找到了更新全部R包的代碼:
install.packages("rvcheck") library(rvcheck) rvcheck::check_r() rvcheck::update_all(check_R = FALSE,which = c("CRAN","BioC","github"))
直接用perl代碼運(yùn)行速度快,而用R是簡便但速度略慢。
TCGA關(guān)于maf的注釋
https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/
代碼文件夾命名最好還是以英文命名,中文命名經(jīng)常會出現(xiàn)錯(cuò)誤
GTF文件有的以、t,有的以;分割
但是R用rtracklayer::import(“gencode.v19.annotation.gtf”)能解決這個(gè)問題。
perl 一行式
https://cloud.tencent.com/developer/article/1642632
zcat gencode.v34.annotation.gtf.gz | grep protein_coding |perl -alne '{next unless $F[2] eq "gene" ;/gene_name \"(.*?)\";/; print "$F[0]\t$F[3]\t$F[4]\t$1" }' >protein_coding.hg38.position針對上述代碼,表示的先找到protein_codeing信息的行,再看第三列是不是基因,是的話做正則,不是的話直接跳過
基因命名方式
NCBI的RefSeq數(shù)據(jù)庫ID,一般是兩個(gè)大寫首字母,加下劃線,后面為數(shù)字。兩個(gè)首字母 ”NC”、”NM”、”NP_”分別代表DNA、mRNA、Protein。
未解決問題
1.有沒有一個(gè)文件對應(yīng)人類全部的外顯子序列,理論上應(yīng)該有,不然,全外顯子測序何來?
我需要找到這個(gè)文件
2.xena上的文件已經(jīng)有點(diǎn)過時(shí)了,因?yàn)閿?shù)據(jù)可能一直沒有更新吧,所以盡量能在官網(wǎng)上下還是在官網(wǎng)上下
官網(wǎng)注釋的文件同樣存在effect那邊很冗余的情況,把這類相對應(yīng)的行刪掉后就可以正常跑onco圖了,原先LUSC12萬行,大致存在這樣的行800多,共包含300多個(gè)樣本,560個(gè)基因,大概每個(gè)樣本有兩三行這類信息,所以刪掉應(yīng)該是影響不大的。
總結(jié)
以上是生活随笔為你收集整理的处理tcga突变数据一点思考的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 消费主义陷阱
- 下一篇: 计算机语言学笔记(一)计算机语言学概论