日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ANNOVAR gene-based annotation

發布時間:2024/3/26 编程问答 61 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ANNOVAR gene-based annotation 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

歡迎關注"生信修煉手冊"!

通過基因相關注釋,可以知道變異位點在基因組上的位置和對蛋白質編碼的影響。在進行注釋之前,首先需要下載物種對應的數據庫,以human為例,命令如下

annotate_variation.pl -downdb -buildver hg19 -webfrom annovar refGene humandb/

下載成功后,humandb的文件列表如下

├── annovar_downdb.log ├── hg19_refGeneMrna.fa ├── hg19_refGene.txt └── hg19_refGeneVersion.txt

數據庫準備好之后,就可以進行注釋了,命令如下

annotate_variation.pl —geneanno ?-buildver hg19 ?ex1.avinput humandb

運行過程中的log信息如下

NOTICE: Output files were written to ex1.avinput.variant_function, ex1.avinput.exonic_variant_function NOTICE: Reading gene annotation from humandb/hg19_refGene.txt ... Done with 63481 transcripts (including 15216 without coding sequence annotation) for 27720 unique genes NOTICE: Processing next batch with 21 unique variants in 21 input lines NOTICE: Reading FASTA sequences from humandb/hg19_refGeneMrna.fa ... Done with 15 sequences WARNING: A total of 405 sequences will be ignored due to lack of correct ORF annotation

會輸出兩個文件,后綴分別為.variant_function和.exonic_variant_function。

1. variant_function

這個文件在輸入文件的前面,新加了兩列,第一列代表變異位點在基因上的區域,比如外顯子,內含子,基因間區等;第二列給出對應的基因。示例如下

UTR5 ? ?ISG15(NM_005101:c.-33T>C) UTR3 ? ?ATAD3C(NM_001039211:c.*91G>T) intronic ? ? ? ?DDR2 intronic ? ? ? ?DNASE2B intergenic ? ? ?UBIAD1(dist=43968),DISP3(dist=135699) exonic ?IL23R exonic ?ATG16L1

annovar將基因組劃分成了9種區間

  • exonic

  • splicing

  • ncRNA

  • UTR5

  • UTR3

  • intronic

  • upstream

  • downstream

  • intergenic

  • exonic特指編碼蛋白的外顯子區;UTR5和UTR3特指不翻譯蛋白的外顯子區;splicing指的是位于內含子邊界(默認2bp以內)的區域;ncRNA指的是非編碼蛋白的基因區域;intronic指的是內含子區;upstream指的是轉錄起始位點上游1Kb以內的區域;downstream指的是轉錄終止位點下游1kb以內的區域;intergenic值的是基因間區。

    在判斷一個變異位點所處區域時,以上9種區間的優先級是不同的,下圖中列出了每種區間的優先級,數字越小,優先級越高。

    如果一個變異位點位于某個基因區域時,第二列會給出對應的基因名稱,如果有多個基因名稱,則逗號分隔,比如

    exonic ?ATG16L1

    如果一個變異位點位點不在基因區域,第二列會給出上下游最近的基因的名字和距離,比如

    intergenic ?UBIAD1(dist=43968),DISP3(dist=135699)

    2. exonic_variant_function

    這個文件只對位于exonic區間的變異位點,給出對應的氨基酸變化信息。在輸入文件的基礎上新增了3列,第一列代表行數,第二列代表變異類型,第三列代表氨基酸的變化情況,示例如下

    line9 ? nonsynonymous SNV ? ? ? IL23R:NM_144701:exon9:c.G1142A:p.R381Q,

    annovar提供了以下幾種變異類型

  • frameshift insertion

  • frameshift deletion

  • frameshift block substitution

  • stopgain

  • stoploss

  • nonframeshift insertion

  • nonframeshift deletion

  • nonframeshift block substitution

  • nonsynonymous SNV

  • synonymous SNV

  • unknown

  • 在定義變異類型時,首先基于4種基本的變異類型,SNV, insertion, deletion, block substitution, 再結合其對蛋白編碼的影響。對于SNV而言,引起了蛋白質變化的就是synonymous SNV, 蛋白質沒有變化的就是
    nonsynonymous SNV;對于剩下的3種基本變異類型,在考慮對蛋白質的影響時,分為了移碼frameshift和非移碼nonframeshift 兩種。stopgain指的是突變之后,原本的密碼子變成了終止密碼子,stoploss指的是突變之后,原本的終止密碼子變成了普通密碼子,導致翻譯情況變化較大。unknown代表不清楚該變異對蛋白的影響。

    和分析變異位點所處區間類似,評估變異類型時也有優先級的區分,優先級如下

    在表示蛋白質的影響時,annovar采用的是自己定義的表示規則,如果想要使用HGVS定義的規則,只需要在運行時添加-hgvs參數,示例如下

    annotate_variation.pl —geneanno ?-buildver hg19 -hgvs ?ex1.avinput humandb

    添加這個參數之后,exonic_variant_function文件的第三列示例如下

    IL23R:NM_144701:exon9:c.1142G>A:p.R381Q

    可以看到,采用的是HGVS的命名方式。

    在使用annovar注釋時,還有一個小技巧。因為只需要輸入文件的前5列,當我們只有基因區間文件,比如bed格式的文件時,可以將4,5列用0填充,這樣的格式annovar也是可以識別的,這樣就可以對基因組上的區間進行基因相關的注釋了。

    掃描關注微信號,更多精彩內容等著你!

    總結

    以上是生活随笔為你收集整理的ANNOVAR gene-based annotation的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。