imputation的细节
生活随笔
收集整理的這篇文章主要介紹了
imputation的细节
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
imputation技術(shù)主要包括兩個(gè)步驟:1. 從SNP參考數(shù)據(jù)集中推斷出群體的主要Haplotype型及頻率。2. 基于群體的Haplotype的頻率分布和某一個(gè)體的(部分)基因型觀察值去推斷這一個(gè)體的haplotype,進(jìn)而推斷這一個(gè)體在某些位點(diǎn)的基因型。我們就從這兩個(gè)步驟去分析一下用rare SNP做imputation的可行性。先說(shuō)第一步,從SNP參考數(shù)據(jù)集中推斷出群體的主要Haplotype型及頻率。利用rare SNP做這一步的主要問(wèn)題有兩個(gè):1. 獲得一個(gè)群體比較完整的rare SNP集太困難了。 2. 如果把rare SNP考慮進(jìn)去,那么在同樣長(zhǎng)度的block中,Haplotype的數(shù)量就太多了。第一個(gè)問(wèn)題不多說(shuō),在給定樣本量下, 一個(gè)rare SNP可以被檢測(cè)到的概率與其頻率成正比。在要求達(dá)到相同的power的前提下,檢出rare SNP所需的樣本量與其頻率的平方成反比。簡(jiǎn)單點(diǎn)說(shuō),就是在同一個(gè)群體中, 要獲得全部(或95%)的MAF>0.5%的SNP, 所需要的樣本量, 是要獲得全部(或95%)的MAF>5%的SNP所需樣本量的100倍。這兩個(gè)數(shù)量級(jí)的差距導(dǎo)致的結(jié)果是,我們現(xiàn)在還沒(méi)有某一個(gè)人群的比較完整的rare SNP參考集。第二個(gè)問(wèn)題主要跟rare SNP的特征有關(guān)。在漢族群體中,rareSNP的總數(shù)量大概是commonSNP數(shù)量的10倍(在其他幾個(gè)主要的的人類(lèi)群體中也接近這個(gè)值,跟有效群體大小有關(guān))。這就是說(shuō),在一個(gè)固定長(zhǎng)度的區(qū)段上,當(dāng)考慮上rare SNP后,haplotype理論上可能的組合數(shù)目會(huì)上升到原來(lái)的10次方(指數(shù)關(guān)系)。當(dāng)然,考慮到連鎖因素后不會(huì)有這么夸張,但這個(gè)數(shù)量的增加依然是驚人的。那么我們可不可以縮短每個(gè)block的長(zhǎng)度來(lái)減少?gòu)?fù)雜度呢?答案是基本不可行。現(xiàn)在主流的算法在做這一步時(shí)考慮的SNP的數(shù)量都在10個(gè)以?xún)?nèi),如果我們想在考慮rare SNP的同時(shí)把復(fù)雜度降到跟現(xiàn)在相當(dāng)?shù)乃剑敲疵總€(gè)block平均就只包含一個(gè)common SNP和10個(gè)rare SNP了。雖然看起來(lái)位點(diǎn)的數(shù)量足以做出正確的推斷,但實(shí)際情況是,在10個(gè)rare SNP位點(diǎn)上,大多數(shù)個(gè)體9個(gè)位點(diǎn)都是ref型的,可用的信息量太少了。貌似上面一段剛好講的就是imputation第二步中的問(wèn)題。。。就不再展開(kāi)一段去說(shuō)了。最后的結(jié)論是:rare SNP做imputation不太靠譜。當(dāng)然這里并不是說(shuō)它準(zhǔn)確率低,而是說(shuō)它的準(zhǔn)確率比直接把所有rare SNP處的的缺失直接補(bǔ)成ref型(準(zhǔn)確率為1-MAF)差不多。
總結(jié)
以上是生活随笔為你收集整理的imputation的细节的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 网易云音乐回应暂缓IPO上市:后续将选择
- 下一篇: 牙齿矫正大约要多少钱?