日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > c/c++ >内容正文

c/c++

生信:1:vcf格式文件解读

發布時間:2023/12/20 c/c++ 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 生信:1:vcf格式文件解读 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

第二章:生物信息分析

第一節:解讀vcf格式文件

1,vcf格式說明

VCF格式:Variant Call Format,用于記錄variants (SNP / InDel)的文件格式,關于其說明,詳見:http://gatkforums.broadinstitute.org/discussion/1268/how-should-i-interpret-vcf-files-produced-by-the-gatk
VCF是用于描述SNP,InDel和SV結果的文本文件。VCF格式在GATK軟件中得到很好的支持。

2,vcf文件結構

VCF文件分為兩部分內容:以“#”開頭的注釋部分和沒有“#”開頭的主體部分。(注釋部分和主題部分);注釋部分有很多對VCF的介紹信息;主體部分包含10列數據。主題部分每一行代表一個variant的信息。

主體部分10列的范例:
chrM 150 . T C 7766.77 PASS AC=2;AF=1.00;AN=2;DP=199;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=49.78;QD=32.91;SOR=0.904 GT:AD:DP:GQ:PL 1/1:0,175:175:99:7795,531,0

3,主體部分的10列分別代表的意義

CHROM : 參考序列名稱
POS : variant所在的left-most位置(1-base position)(發生變異的位置的第一個堿基所在的位置)
ID : variant的ID。同時對應著dbSNP數據庫中的ID,若沒有,則默認使用‘.’
REF : 參考序列的Allele,(等位堿基,即參考序列該位置的堿基類型及堿基數量)
ALT : variant的Allele,若有多個,則使用逗號分隔,(變異所支持的堿基類型及堿基數量)這里的堿基類型和堿基數量,對于SNP來說是單個堿基類型的編號,而對于Indel來說是指堿基個數的添加或缺失,以及堿基類型的變化
QUAL : variants的質量。Phred格式的數值,代表著此位點是純合的概率此值越大,則概率越低,代表著次位點是variants的可能性越大。(表示變異堿基的可能性)
FILTER : 次位點是否要被過濾掉。如果是PASS,則表示此位點可以考慮為variant。
INFO : variant的相關信息
FORMAT : variants的格式,例如GT:AD:DP:GQ:PL
SAMPLES : 各個Sample的值,由BAM文件中的@RG下的SM標簽所決定,這些值對應著第9列的各個格式,不同格式的值用冒號分開,每一個sample對應著1列;多個samples則對應著多列,這種情況下列的數多余10列。

4,vcf文件的基因型信息

VCF文件的主體部分的第9列是基因型信息的多個標簽,這些標簽之間以冒號分割,其對應的值位于第10列,同樣以冒號分割,表示第一個樣品的基因型結果。若有多個樣品,則VCF文件超過10列,且第10列后的每一列表示一個樣品的基因型結果。第9列各個標簽的意義展示如下:

GT : genotype

樣品的基因型(genotype),兩個數字中間用‘/’分開,這兩個數字表示雙倍體的sample的基因型。0表示樣品中有ref的allele(可初步理解為和ref的堿基相同,即和REF相同);1表示樣品中的variant的allele(可以理解為和variant變異后的堿基相同,即和ALT相同);2表示有第二個variant的allele(和ALT的第二種堿基相同)對于SNP是指單個堿基類型相同而對于Indel是指堿基類型及個數均相同

因此根據GT的結果得出以下結論:
0/0表示sample中該位點為純合位點,和REF的堿基類型一致
0/1表示sample中該位點為雜合突變,有REF和ALT兩個基因型(部分堿基和REF堿基類型一致,部分堿基和ALT堿基類型一致)
1/1表示sample中該位點為純合突變,總體突變類型和ALT堿基類型一致
1/2表示sample中該位點為雜合突變,有ALT1和ALT2兩個基因型(部分和ALT1堿基類型一致,部分和ALT2堿基類型一致)

AD和DP

AD(Allele Depth)為sample中每一種allele(等位堿基)的reads覆蓋度,在diploid(二倍體,或可指代多倍型)中則是用逗號分隔的兩個值,前者對應REF基因,后者對應ALT基因型;
DP(Depth)為sample中該位點的覆蓋度,是所支持的兩個AD值(逗號前和逗號后)的加和;例如:
1/1:0,175:175GT:AD(REF),AD(ALT):DP
0/1:79,96:175
1/2:0,20,56:76
這里的三種類型對應的DP值均是其對應的AD值的加和,1/1的175是0+175,0/1的175是79+96,1/2的76是0+20+56

GQ(基因型存在的概率)

基因型的質量值(Genotype Quality)。Phred格式(Phred_scaled)的質量值,表示在該位點該基因型存在的可能性;該值越高,則Genotype的可能性越大;計算方法:Phred值=-10*log(1-P),P為基因型存在的概率。(一般在final.snp.vcf文件中,該值為99,為99時,其可能性最大

PL(likelihood genotypes)

指定的三種基因型的質量值(provieds the likelihoods of the given genotypes);這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。該值越大,表明為該種基因型的可能性越小。Phred值=-10*log(P),P為基因型存在的概率。最有可能的genotype的值為0
例如:
0/1:889,0,216
0/1:94,0,940
1/1:269,18,0
1/1:580,54,0
1/2:3365,1522,1357,1842,0,1706
1/2:307,190,178,117,0,104
0/0型3個數字,第一個為0
0/1型3個數字,中間為0
1/1型3個數字,最后一個為0
1/2型6個數字,倒數第二個為0

5,vcf文件第8列信息

第8列的信息包括18種,都是以“TAG=Value”,并使用分號分隔的形式,其中很多的注釋信息在VCF文件的頭部注釋中給出,下面對常用的TAG進行解釋:

AC,AF和AN

AC(Allele Count)表示基因型為與variant一致的Allele(等位堿基)的數目;AF(Allele Frequency)表示Allele的頻率,AF值=AC值/AN值;AN(Allele Number)表示Allele的總數目。比如:對2個sample的雙倍體進行測序,則AN值為4。若REF上位點堿基為A,而2個sample在該位點分別為A/T和T/G,則AC值為2,1;AF值為0.50,0.25。AC:variant數目,AF:頻率,AN:總數目

DP(reads覆蓋度)

表示reads被過濾后的覆蓋度

FS

FisherStrand的縮寫,表示使用Fisher’s精確檢驗來檢測strand bias而得到的Fhred格式的p值,該值越小越好;如果該值較大,表示strand bias(正負鏈偏移)越嚴重,即所檢測到的variants位點上,reads比對到正負義鏈上的比例不均衡。一般進行filter的時候,推薦保留FS<10~20的variants位點。GATK可設定FS參數。

ReadPosRandSum

Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias.當variants出現在reads尾部的時候,其結果可能不準確。該值用于衡量alternative allele(變異的等位基因)相比于reference allele(參考基因組等位基因),其variant位點是否匹配到reads更靠中部的位置。因此只有基因型是雜合且有一個allele和參考基因組一致的時候,才能計算該值。若該值為正值,表明和alternative allele相當于reference allele,落來reads更靠中部的位置;若該值是負值,則表示alternative allele相比于reference allele落在reads更靠尾部的位置。
進行filter的之后,推薦保留ReadPosRankSum>-1.65~-3.0的variant位點

MQRankSum

該值用于衡量alternative allele上reads的mapping quality與reference allele上reads的mapping quality的差異。若該值是負數值,則表明alternative allele比reference allele的reads mapping quality差。進行filter的時候,推薦保留MQRankSum>-1.65~-3.0的variant位點。

總結

以上是生活随笔為你收集整理的生信:1:vcf格式文件解读的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。