日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

国际千人基因组计划数据库怎么用起来?

發(fā)布時間:2025/3/15 数据库 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 国际千人基因组计划数据库怎么用起来? 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

從公共數(shù)據(jù)庫中下載基因組或外顯子組數(shù)據(jù),一般需注意以下幾項:

1.?使用權限

2. 物種及參考基因組版本

3. 數(shù)據(jù)來源及引用:GEO、千人基因組計劃等

4. 表型:種族、健康狀況、性別、年齡和家系信息

5. 數(shù)據(jù)類型:遺傳變異、體細胞變異;SNV、InDel或SNV;基因芯片或測序(測序儀、單雙端及讀長)

6. 文件類型:fastq、bam、vcf或gvcf

國際千人基因組計劃

項目起始。人類基因組計劃耗費10多年后在2003年繪出人類的完整基因組圖譜。作為某種延續(xù),也得益于測序通量的提高,國際千人基因組計劃(The 1000 Genomes Project, 1000G/1KGP)從2008年啟動,到2012年即獲得了超過1000人的基因組數(shù)據(jù),是科學界首次實現(xiàn)千人規(guī)模以上的基因組對比分析(2012年)。

1000G建立的人類遺傳變異資源由國際基因組樣本資源(The International Genome Sample Resource, IGSR)維護和共享。IGSR官網(wǎng):

http://www.internationalgenome.org/

項目規(guī)劃。1000G旨在繪制當時(2012年)最為詳盡、最有醫(yī)學應用價值的人類基因組遺傳多態(tài)性圖譜。其后數(shù)據(jù)不斷擴充,分析結(jié)果不斷更新和迭代。目前已經(jīng)有超過2500個人的基因組。2500個人的全部基因組可產(chǎn)生50TB(5萬GB)的數(shù)據(jù)量,包含8萬億個DNA堿基對。

參與單位。華大基因是1000G的主要發(fā)起單位之一,承擔了非洲人群和400個黃種人的全基因組測序。其它單位有英國桑格研究所和美國國立人類基因組研究所等。

人群分布。每個亞群一般包含幾十到一百多個健康人。例如:尼日利亞伊巴丹區(qū)域的約魯巴人;肯尼亞Webuye的Luhya人和Kinyawa的Maasai人;居住于美國西南部的非洲人后裔;居住于東京的日本人;居住于北京的中國人;居住于丹佛的中國人;意大利的Toscani居民;美國猶他州的北歐和西歐人后裔;美國休斯頓的Gujarati印第安人;美國洛杉磯的墨西哥人后裔。項目后期的人群多樣性有大幅增加。

1000G數(shù)據(jù)庫的應用

任何兩個人在基因水平上99%是一樣的,小部分的基因組序列因人而異。每個看起來很健康的人其實都攜有數(shù)百個罕見的基因變異,其中有些基因變異已證實與某些疾病風險有關。這些基因變異究竟在什么情況下才會實質(zhì)性地增加患病風險,目前不得而知(聊生信:我們會關注相關的研究與應用進展)。

發(fā)現(xiàn)罕見的基因變異1000G可以幫助發(fā)現(xiàn)一些攜帶者占總?cè)丝诒壤坏?%的基因變異。這些罕見基因變異或許與疾病有關,例如可能增加心臟病或癌癥的患病風險。對基因變異進行研究有助于開發(fā)預防、治療相關疾病的方法。

作為人群對照。可以幫助研究者不再泛泛地找一些人的基因組(幾個或幾十個)用于對比,而是直接調(diào)閱他們長期生活區(qū)域的人群基因組數(shù)據(jù),開展更加有針對性的比較。

應用匯總發(fā)現(xiàn)疾病發(fā)病機理、疾病的易感性、對藥物和環(huán)境因素的反應性;常見疾病的診斷、個性化預測、預防和治療;在大的范圍內(nèi)定位人群突變基因、幫助發(fā)現(xiàn)人類遺傳疾病的相關基因、鑒定特定遺傳病人群中的罕見致病基因、更精確地定位已發(fā)現(xiàn)的遺傳風險因素、挖掘出更多未知的致病遺傳因素;藥物基因組學、人類群體遺傳學、人類進化史。

樣本列表的選擇和下載

1000G包含的個體主要是來自不同人群的(自我聲稱)健康的樣本(people who declared themselves to be healthy),可方便地下載到原始數(shù)據(jù)。但作為對照時需要注意:只有少部分樣本進行了深度測序,大部分數(shù)據(jù)都是低深度測序。

主要數(shù)據(jù)組成

Pilot:? ? 試點,比對到NCBI36

Phase1:約1000例,低深度和外顯子數(shù)據(jù),GRCh37

Phase2:約1700例,分析方法有更新

Phase3:約3000例,GRCh37,2504例的樣本信息公開

1000 Genomes on GRCh38:約2700例樣本

GRCH38的不同版本(GRCH38.p1, GRCH38.p2等)是對GRCH38的修補(patch),坐標系不會改變。

數(shù)據(jù)入口(data portal)

https://www.internationalgenome.org/data-portal/sample

先選擇測序技術:

另有全基因組、小RNA、Nanopore、PacBio和單細胞測序,及基因型芯片數(shù)據(jù)

再選擇人群:

最后選擇數(shù)據(jù)集合:

先選擇了外顯子組(Exome);人群:CHB(北京,n=103);CHS(南方漢族人群,n=113);數(shù)據(jù)集合:30x on GRCh38。最終有216個樣本符合。

點擊Download the list下載得到樣本名稱:

需要根據(jù)這些樣本列表從1000G數(shù)據(jù)庫下載感興趣的各類變異文件,我們后續(xù)的推文再介紹。

撰寫:宋紅衛(wèi)

校對:宋紅衛(wèi)

更多人類遺傳學知識、文獻和分析技術

請關注和星標聊生信


往期精品(點擊圖片直達文字對應教程)

機器學習

后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集

總結(jié)

以上是生活随笔為你收集整理的国际千人基因组计划数据库怎么用起来?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。