日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

处理tcga突变数据一点思考

發布時間:2024/3/12 编程问答 54 豆豆
生活随笔 收集整理的這篇文章主要介紹了 处理tcga突变数据一点思考 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

TCGA突變數據

  • 寫在前面
    • 泛癌mc3作圖
    • 學到的額外知識點
    • 使用TCGAbiolinks下載數據
      • TCGA關于maf的注釋
      • 代碼文件夾命名最好還是以英文命名,中文命名經常會出現錯誤
      • GTF文件有的以、t,有的以;分割
      • perl 一行式
      • 基因命名方式
    • 未解決問題

寫在前面

大概是在利用xena網站的數據作圖時,碰到一些問題。一個是xena下載的數據不能直接作為maf文件,需要稍微做點變換,這個好解決,不好解決的是關于變異類型存在的問題。
vaf的說明參考:https://byteofbio.com/archives/7.html#:~:text=VAF%20%E7%9A%84%E5%85%A8%E7%A7%B0%E6%98%AF%20Variant%20Allele%20Frequency%20%EF%BC%88%20%E5%8F%98%E5%BC%82%E7%AD%89%E4%BD%8D%E5%9F%BA%E5%9B%A0%E9%A2%91%E7%8E%87%20%EF%BC%89%E6%88%96,p%20t%20h%20%3D%20A%20D%20D%20P
3‘5’端說明:查看知乎,說是在核苷酸連接磷酸基團的那端我們稱為 5‘ 端,連接著羥基的那端稱為 3’ 端。
變異信息一些說明(ANNOVAR結果說明-SNP/INDEL):https://www.jianshu.com/p/6c11fe689bac

泛癌mc3作圖

瀑布圖結果:
圖表中沒有multi_hit信息,但注釋有,而且自己的文件存在這樣一些問題

就是某個一個基因有多個突變,但是數據將其放在一塊了,就會變得非常奇怪,在變異列中會非常擠,且讓我們損失部分信息。
嘗試下從GDC平臺下載的數據處理會不會有這樣的問題;
從GDC平臺下載的數據處理不會有上述effect的問題,但問題在于做了處理后畫不出來oncoplot圖,原因應該是effect命名方式不一致,這可能說明需要重新更改effect的命名規則,而這個multi_hit問題也還是存在著
針對上面這個問題,下載GDCMUTEct2的數據不會有這個問題,但effect還是這樣子,不符合規范

作圖時

學到的額外知識點


一個是VAF,這個屬于突變堿基占該位點堿基比例。

使用TCGAbiolinks下載數據

果子前輩的教程是真的好用:https://mp.weixin.qq.com/s/rdFnq6jCMIjmrWI8A8fS5g
只是安裝最新版TCGAbiolinks時,更新R版本,中間遇到了R包老的問題,頭疼了一陣,但是后面也都解決了,因為這個大概找到了更新全部R包的代碼:
install.packages("rvcheck") library(rvcheck) rvcheck::check_r() rvcheck::update_all(check_R = FALSE,which = c("CRAN","BioC","github"))
直接用perl代碼運行速度快,而用R是簡便但速度略慢。

TCGA關于maf的注釋

https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/

代碼文件夾命名最好還是以英文命名,中文命名經常會出現錯誤

GTF文件有的以、t,有的以;分割

但是R用rtracklayer::import(“gencode.v19.annotation.gtf”)能解決這個問題。

perl 一行式

https://cloud.tencent.com/developer/article/1642632

zcat gencode.v34.annotation.gtf.gz | grep protein_coding |perl -alne '{next unless $F[2] eq "gene" ;/gene_name \"(.*?)\";/; print "$F[0]\t$F[3]\t$F[4]\t$1" }' >protein_coding.hg38.position

針對上述代碼,表示的先找到protein_codeing信息的行,再看第三列是不是基因,是的話做正則,不是的話直接跳過

基因命名方式

NCBI的RefSeq數據庫ID,一般是兩個大寫首字母,加下劃線,后面為數字。兩個首字母 ”NC”、”NM”、”NP_”分別代表DNA、mRNA、Protein。

未解決問題

1.有沒有一個文件對應人類全部的外顯子序列,理論上應該有,不然,全外顯子測序何來?
我需要找到這個文件
2.xena上的文件已經有點過時了,因為數據可能一直沒有更新吧,所以盡量能在官網上下還是在官網上下
官網注釋的文件同樣存在effect那邊很冗余的情況,把這類相對應的行刪掉后就可以正常跑onco圖了,原先LUSC12萬行,大致存在這樣的行800多,共包含300多個樣本,560個基因,大概每個樣本有兩三行這類信息,所以刪掉應該是影響不大的。

總結

以上是生活随笔為你收集整理的处理tcga突变数据一点思考的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。