當(dāng)前位置：首頁(yè) > 编程资源 > 万象百科 >内容正文

万象百科

imputation的细节

發(fā)布時(shí)間：2023/11/25 万象百科 59 博士

生活随笔收集整理的這篇文章主要介紹了 imputation的细节小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

imputation技術(shù)主要包括兩個(gè)步驟：1. 從SNP參考數(shù)據(jù)集中推斷出群體的主要Haplotype型及頻率。2. 基于群體的Haplotype的頻率分布和某一個(gè)體的（部分）基因型觀察值去推斷這一個(gè)體的haplotype，進(jìn)而推斷這一個(gè)體在某些位點(diǎn)的基因型。我們就從這兩個(gè)步驟去分析一下用rare SNP做imputation的可行性。先說(shuō)第一步，從SNP參考數(shù)據(jù)集中推斷出群體的主要Haplotype型及頻率。利用rare SNP做這一步的主要問(wèn)題有兩個(gè)：1. 獲得一個(gè)群體比較完整的rare SNP集太困難了。 2. 如果把rare SNP考慮進(jìn)去，那么在同樣長(zhǎng)度的block中，Haplotype的數(shù)量就太多了。第一個(gè)問(wèn)題不多說(shuō)，在給定樣本量下，一個(gè)rare SNP可以被檢測(cè)到的概率與其頻率成正比。在要求達(dá)到相同的power的前提下，檢出rare SNP所需的樣本量與其頻率的平方成反比。簡(jiǎn)單點(diǎn)說(shuō)，就是在同一個(gè)群體中，要獲得全部（或95%）的MAF>0.5%的SNP, 所需要的樣本量, 是要獲得全部（或95%）的MAF>5%的SNP所需樣本量的100倍。這兩個(gè)數(shù)量級(jí)的差距導(dǎo)致的結(jié)果是，我們現(xiàn)在還沒(méi)有某一個(gè)人群的比較完整的rare SNP參考集。第二個(gè)問(wèn)題主要跟rare SNP的特征有關(guān)。在漢族群體中，rareSNP的總數(shù)量大概是commonSNP數(shù)量的10倍（在其他幾個(gè)主要的的人類(lèi)群體中也接近這個(gè)值，跟有效群體大小有關(guān)）。這就是說(shuō)，在一個(gè)固定長(zhǎng)度的區(qū)段上，當(dāng)考慮上rare SNP后，haplotype理論上可能的組合數(shù)目會(huì)上升到原來(lái)的10次方(指數(shù)關(guān)系）。當(dāng)然，考慮到連鎖因素后不會(huì)有這么夸張，但這個(gè)數(shù)量的增加依然是驚人的。那么我們可不可以縮短每個(gè)block的長(zhǎng)度來(lái)減少?gòu)?fù)雜度呢？答案是基本不可行。現(xiàn)在主流的算法在做這一步時(shí)考慮的SNP的數(shù)量都在10個(gè)以?xún)?nèi)，如果我們想在考慮rare SNP的同時(shí)把復(fù)雜度降到跟現(xiàn)在相當(dāng)?shù)乃剑敲疵總€(gè)block平均就只包含一個(gè)common SNP和10個(gè)rare SNP了。雖然看起來(lái)位點(diǎn)的數(shù)量足以做出正確的推斷，但實(shí)際情況是，在10個(gè)rare SNP位點(diǎn)上，大多數(shù)個(gè)體9個(gè)位點(diǎn)都是ref型的，可用的信息量太少了。貌似上面一段剛好講的就是imputation第二步中的問(wèn)題。。。就不再展開(kāi)一段去說(shuō)了。最后的結(jié)論是：rare SNP做imputation不太靠譜。當(dāng)然這里并不是說(shuō)它準(zhǔn)確率低，而是說(shuō)它的準(zhǔn)確率比直接把所有rare SNP處的的缺失直接補(bǔ)成ref型（準(zhǔn)確率為1-MAF)差不多。

總結(jié)

以上是生活随笔為你收集整理的imputation的细节的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：网易云音乐回应暂缓IPO上市：后续将选择
下一篇：牙齿矫正大约要多少钱？