當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

处理tcga突变数据一点思考

發(fā)布時(shí)間：2024/3/12 编程问答 60 豆豆

生活随笔收集整理的這篇文章主要介紹了处理tcga突变数据一点思考小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

TCGA突變數(shù)據(jù)

寫在前面
- 泛癌mc3作圖
- 學(xué)到的額外知識點(diǎn)
- 使用TCGAbiolinks下載數(shù)據(jù)
- - TCGA關(guān)于maf的注釋
  - 代碼文件夾命名最好還是以英文命名，中文命名經(jīng)常會出現(xiàn)錯(cuò)誤
  - GTF文件有的以、t，有的以；分割
  - perl 一行式
  - 基因命名方式
- 未解決問題

寫在前面

大概是在利用xena網(wǎng)站的數(shù)據(jù)作圖時(shí)，碰到一些問題。一個(gè)是xena下載的數(shù)據(jù)不能直接作為maf文件，需要稍微做點(diǎn)變換，這個(gè)好解決，不好解決的是關(guān)于變異類型存在的問題。
vaf的說明參考：https://byteofbio.com/archives/7.html#:~:text=VAF%20%E7%9A%84%E5%85%A8%E7%A7%B0%E6%98%AF%20Variant%20Allele%20Frequency%20%EF%BC%88%20%E5%8F%98%E5%BC%82%E7%AD%89%E4%BD%8D%E5%9F%BA%E5%9B%A0%E9%A2%91%E7%8E%87%20%EF%BC%89%E6%88%96,p%20t%20h%20%3D%20A%20D%20D%20P
3‘5’端說明：查看知乎，說是在核苷酸連接磷酸基團(tuán)的那端我們稱為 5‘ 端，連接著羥基的那端稱為 3’ 端。
變異信息一些說明（ANNOVAR結(jié)果說明-SNP/INDEL）：https://www.jianshu.com/p/6c11fe689bac

泛癌mc3作圖

瀑布圖結(jié)果：
圖表中沒有multi_hit信息，但注釋有，而且自己的文件存在這樣一些問題

就是某個(gè)一個(gè)基因有多個(gè)突變，但是數(shù)據(jù)將其放在一塊了，就會變得非常奇怪，在變異列中會非常擠，且讓我們損失部分信息。
嘗試下從GDC平臺下載的數(shù)據(jù)處理會不會有這樣的問題;
從GDC平臺下載的數(shù)據(jù)處理不會有上述effect的問題，但問題在于做了處理后畫不出來oncoplot圖，原因應(yīng)該是effect命名方式不一致，這可能說明需要重新更改effect的命名規(guī)則，而這個(gè)multi_hit問題也還是存在著
針對上面這個(gè)問題，下載GDCMUTEct2的數(shù)據(jù)不會有這個(gè)問題，但effect還是這樣子，不符合規(guī)范

作圖時(shí)

學(xué)到的額外知識點(diǎn)

一個(gè)是VAF，這個(gè)屬于突變堿基占該位點(diǎn)堿基比例。

使用TCGAbiolinks下載數(shù)據(jù)

果子前輩的教程是真的好用：https://mp.weixin.qq.com/s/rdFnq6jCMIjmrWI8A8fS5g
只是安裝最新版TCGAbiolinks時(shí)，更新R版本，中間遇到了R包老的問題，頭疼了一陣，但是后面也都解決了，因?yàn)檫@個(gè)大概找到了更新全部R包的代碼：
install.packages("rvcheck") library(rvcheck) rvcheck::check_r() rvcheck::update_all(check_R = FALSE,which = c("CRAN","BioC","github"))
直接用perl代碼運(yùn)行速度快，而用R是簡便但速度略慢。

TCGA關(guān)于maf的注釋

https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/

代碼文件夾命名最好還是以英文命名，中文命名經(jīng)常會出現(xiàn)錯(cuò)誤

GTF文件有的以、t，有的以；分割

但是R用rtracklayer::import(“gencode.v19.annotation.gtf”)能解決這個(gè)問題。

perl 一行式

https://cloud.tencent.com/developer/article/1642632

zcat gencode.v34.annotation.gtf.gz | grep protein_coding |perl -alne '{next unless $F[2] eq "gene" ;/gene_name \"(.*?)\";/; print "$F[0]\t$F[3]\t$F[4]\t$1" }' >protein_coding.hg38.position

針對上述代碼，表示的先找到protein_codeing信息的行，再看第三列是不是基因，是的話做正則，不是的話直接跳過

基因命名方式

NCBI的RefSeq數(shù)據(jù)庫ID，一般是兩個(gè)大寫首字母，加下劃線，后面為數(shù)字。兩個(gè)首字母 ”NC”、”NM”、”NP_”分別代表DNA、mRNA、Protein。

未解決問題

1.有沒有一個(gè)文件對應(yīng)人類全部的外顯子序列，理論上應(yīng)該有，不然，全外顯子測序何來？
我需要找到這個(gè)文件
2.xena上的文件已經(jīng)有點(diǎn)過時(shí)了，因?yàn)閿?shù)據(jù)可能一直沒有更新吧，所以盡量能在官網(wǎng)上下還是在官網(wǎng)上下
官網(wǎng)注釋的文件同樣存在effect那邊很冗余的情況，把這類相對應(yīng)的行刪掉后就可以正常跑onco圖了，原先LUSC12萬行，大致存在這樣的行800多，共包含300多個(gè)樣本，560個(gè)基因，大概每個(gè)樣本有兩三行這類信息，所以刪掉應(yīng)該是影響不大的。

總結(jié)

以上是生活随笔為你收集整理的处理tcga突变数据一点思考的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：消费主义陷阱
下一篇：计算机语言学笔记（一）计算机语言学概论