处理tcga突变数据一点思考
TCGA突變數據
- 寫在前面
- 泛癌mc3作圖
- 學到的額外知識點
- 使用TCGAbiolinks下載數據
- TCGA關于maf的注釋
- 代碼文件夾命名最好還是以英文命名,中文命名經常會出現錯誤
- GTF文件有的以、t,有的以;分割
- perl 一行式
- 基因命名方式
- 未解決問題
寫在前面
大概是在利用xena網站的數據作圖時,碰到一些問題。一個是xena下載的數據不能直接作為maf文件,需要稍微做點變換,這個好解決,不好解決的是關于變異類型存在的問題。
vaf的說明參考:https://byteofbio.com/archives/7.html#:~:text=VAF%20%E7%9A%84%E5%85%A8%E7%A7%B0%E6%98%AF%20Variant%20Allele%20Frequency%20%EF%BC%88%20%E5%8F%98%E5%BC%82%E7%AD%89%E4%BD%8D%E5%9F%BA%E5%9B%A0%E9%A2%91%E7%8E%87%20%EF%BC%89%E6%88%96,p%20t%20h%20%3D%20A%20D%20D%20P
3‘5’端說明:查看知乎,說是在核苷酸連接磷酸基團的那端我們稱為 5‘ 端,連接著羥基的那端稱為 3’ 端。
變異信息一些說明(ANNOVAR結果說明-SNP/INDEL):https://www.jianshu.com/p/6c11fe689bac
泛癌mc3作圖
瀑布圖結果:
圖表中沒有multi_hit信息,但注釋有,而且自己的文件存在這樣一些問題
就是某個一個基因有多個突變,但是數據將其放在一塊了,就會變得非常奇怪,在變異列中會非常擠,且讓我們損失部分信息。
嘗試下從GDC平臺下載的數據處理會不會有這樣的問題;
從GDC平臺下載的數據處理不會有上述effect的問題,但問題在于做了處理后畫不出來oncoplot圖,原因應該是effect命名方式不一致,這可能說明需要重新更改effect的命名規則,而這個multi_hit問題也還是存在著
針對上面這個問題,下載GDCMUTEct2的數據不會有這個問題,但effect還是這樣子,不符合規范
作圖時
學到的額外知識點
一個是VAF,這個屬于突變堿基占該位點堿基比例。
使用TCGAbiolinks下載數據
果子前輩的教程是真的好用:https://mp.weixin.qq.com/s/rdFnq6jCMIjmrWI8A8fS5g
只是安裝最新版TCGAbiolinks時,更新R版本,中間遇到了R包老的問題,頭疼了一陣,但是后面也都解決了,因為這個大概找到了更新全部R包的代碼:
install.packages("rvcheck") library(rvcheck) rvcheck::check_r() rvcheck::update_all(check_R = FALSE,which = c("CRAN","BioC","github"))
直接用perl代碼運行速度快,而用R是簡便但速度略慢。
TCGA關于maf的注釋
https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/
代碼文件夾命名最好還是以英文命名,中文命名經常會出現錯誤
GTF文件有的以、t,有的以;分割
但是R用rtracklayer::import(“gencode.v19.annotation.gtf”)能解決這個問題。
perl 一行式
https://cloud.tencent.com/developer/article/1642632
zcat gencode.v34.annotation.gtf.gz | grep protein_coding |perl -alne '{next unless $F[2] eq "gene" ;/gene_name \"(.*?)\";/; print "$F[0]\t$F[3]\t$F[4]\t$1" }' >protein_coding.hg38.position針對上述代碼,表示的先找到protein_codeing信息的行,再看第三列是不是基因,是的話做正則,不是的話直接跳過
基因命名方式
NCBI的RefSeq數據庫ID,一般是兩個大寫首字母,加下劃線,后面為數字。兩個首字母 ”NC”、”NM”、”NP_”分別代表DNA、mRNA、Protein。
未解決問題
1.有沒有一個文件對應人類全部的外顯子序列,理論上應該有,不然,全外顯子測序何來?
我需要找到這個文件
2.xena上的文件已經有點過時了,因為數據可能一直沒有更新吧,所以盡量能在官網上下還是在官網上下
官網注釋的文件同樣存在effect那邊很冗余的情況,把這類相對應的行刪掉后就可以正常跑onco圖了,原先LUSC12萬行,大致存在這樣的行800多,共包含300多個樣本,560個基因,大概每個樣本有兩三行這類信息,所以刪掉應該是影響不大的。
總結
以上是生活随笔為你收集整理的处理tcga突变数据一点思考的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 消费主义陷阱
- 下一篇: 计算机语言学笔记(一)计算机语言学概论