人群频率 | gnomAD数据库 (二) 后台数据的获取及质量评估
? 在gnomAD數據庫簡介(一)中,我們簡單介紹了基因組學遺傳分析中人群變異頻率的重要性,以及gnomAD數據庫的一些背景。
? 本篇主要側重gnomAD的后臺數據下載和簡單評估。
gnomAD后臺數據下載
gnomAD數據下載的幾個方式:
測試一下gsutil命令:
pip install gsutilcd /home/shw/public/gnomADgsutil?ls?gs://gcp-public-data--gnomad/release/ gsutil?ls?gs://gcp-public-data--gnomad/release/2.1.1/liftover_grch38/vcf/exomes為了簡便一些,我們還是使用熟悉的wget命令下載:
后臺數據簡單測試
查看上述獲取的gnomAD(exomes,?v2.1.1, LiftOver)VCF文件記錄的變異位點個數:
zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | wc -l # 17205543gnomAD的這個外顯子組數據共收錄了約1,720萬個變異位點!要知道人類總的外顯子組位點數約為3,000萬。這個比例依然很難得。隨便找個基因的外顯子序列,其中一半以上的核苷酸都能在gnomAD查到人群變異頻率!
在該VCF文件中隨機選擇一個位點進行比較和測試,例如:rs1479269360
gnomAD后臺數據(VCF文件的第5000行)
# 查看VCF文件的表頭: zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | head -n 5000 | grep -v '##' | head -n 1# 查看VCF文件某一個變異位點的人群頻率: zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | head -n 5000 | tail -n 1(人群變異頻率)AF=7.44679e-06
另外注釋有:轉錄本ID、密碼子變化、(反式)調控位點注釋等信息
gnomAD在線檢索(AF完全匹配)
另有人群的亞群頻率、年齡分布、基因型質量、測序深度、IGV等展示信息
dbSNP在線檢索(發現居然沒有該位點的AF)
另有臨床意義等其它信息:
提取gnomAD的人群變異頻率
從剛才的gnomAD(exomes, v2.1.1, LiftOver)VCF文件中提取AF信息:
nohup?zcat?gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz?|?sed?'s/AF=/\t/g'?|?cut?-f?9?|?sed?'s/;/\t/g'?|?cut?-f?1?>?gnomad.exomes.r2.1.1.sites.liftover_grch38.AF.txt zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | cut -f 1-7 > gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.1-7col.txt & #?按列合并: paste gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.1-7col.txt gnomad.exomes.r2.1.1.sites.liftover_grch38.AF.txt | grep -v '##' > gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt測試鐮刀型貧血癥的致病HBB的致病變異位點:rs334
grep?-w?rs334?gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txtchr11? ?5227002 rs334? ?T? ? ? ?A? ? ? ?2136270.15? ? ? PASS? ? 3.47958e-03
完全匹配dbSNP網站上Frequency中的GnomAD_exome,且后者具有最大的人群基數:
https://www.ncbi.nlm.nih.gov/snp/rs334
使用gnomAD(v2.1.1)在線檢索:
令人驚喜的是,gnomAD在線檢索結果也提供了SIFT, Polyphen等in-sillico有害性預測,以及ClinVar相關注釋信息:
關于ClinVar的詳細介紹,及其對rs334注釋,請查看:ClinVar數據庫詳解。
繼續使用gnomAD(v3.1.1)在線檢索:rs334(大小寫敏感!)。結果中居然還有CADD和REVEL(In Silico Predictors)打分:
關于gnomAD的總的變異位點數
上述操作中,從gnomAD(exomes, v2.1.1, LiftOver)的VCF文件提取了AF(等位基因人群頻率)信息,下面是其總的位點數:
wc -l gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt # 17,201,297 gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt當然,我們更想了解所有3,000萬個位點的變異頻率。因為說不準哪天我們自己的外顯子組測序數據就測到了一個導致氨基酸變異的位點,但恰好未被gnomAD收錄(這種情況是存在的),此時由于不知道其AF,按照通常的思路只好考慮將其舍棄:只保留gnomAD中收錄的、且AF<5%的位點。
那么gnomAD未收錄的位點均被舍棄。也就是說,最終致病位點只能限制在gnomAD所收錄的位點中(這依賴于gnomAD,是比較被動的)。此為“過分的舍棄”。
另一個思路,只過濾掉gnomAD中收錄的、且AF>10%變異的位點,但保留下來的某些位點仍然可能在人群中存在高頻變異(AF>10%),而這些位點有可能是耐受的、良性的或非致病的位點。此為“過多的保留”。
因此一些研究或高水平文獻中不止參考了gnomAD,也參考了1000 Genomes和Bale database等數據庫中收錄的位點,目的就是盡量減少“過分的舍棄”和“過多的保留”。
因此我們還是希望gnomAD能覆蓋到全部外顯子序列(~3,000萬個位點),這無疑是一個巨大挑戰。
更多人類遺傳學知識、文獻和分析技術
請關注和星標聊生信
總結
以上是生活随笔為你收集整理的人群频率 | gnomAD数据库 (二) 后台数据的获取及质量评估的全部內容,希望文章能夠幫你解決所遇到的問題。