日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

使用Plink对SNP数据进行质量控制

發布時間:2024/3/7 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 使用Plink对SNP数据进行质量控制 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

      • 對個體和SNP的檢測和篩選
      • 哈代平衡
      • 次等位基因頻率
      • 性別檢測

在做和基因相關的分析時,拿到基因型數據,首先要進行質量控制。

在使用Plink進行質量控制時,一般包含以下幾步:

  • individual and SNP missingness,(篩選個體和SNP)
  • inconsistencies in assigned and genetic sex of subjects (see sex discrepancy),(性別是否出錯)
  • minor allele frequency (MAF),(次等位基因頻率篩選)
  • deviations from Hardy–Weinberg equilibrium (HWE),(哈代平衡檢測)
  • heterozygosity rate,(雜合率)
  • relatedness,(相關性)
  • ethnic outliers (see population stratification).(人口分層)
  • 當然一般也要根據數據進行步驟的選擇,因為我們處理數據是為了后續的相關性分析,所以這里沒有使用Plink做相關分析,同時因為人口分層暫時沒有特別了解,所以只記錄使用Plink進行上述前五步的工作。

    在Plink中做這幾步的質量控制,可以直接使用命令+參數完成篩選,也可以使用Plink生成檢測結果來手動篩選。當然,一般對數據要求嚴格的實驗都是先生成結果,經過查看以后確定參數再使用Plink進行篩選。

    具體來講,根據我的習慣一般先進行個體和SNP的篩選,次等位基因頻率、哈代平衡的檢測,之后做性別的檢測,剔除性別出錯的樣本,再做一遍上述的篩選。

    對個體和SNP的檢測和篩選

    根據個體和SNP的缺失率進行挑選。

    –missing 生成個體和SNP缺失的檢測結果。

    個體缺失位點結果文件為plink.imiss:
    第一列為家系ID,第二列為個體ID,第三列是否表型缺失,第四列缺失的SNP個數,第五列總SNP個數,第六列缺失率。

    單個SNP缺失的結果文件為plink.lmiss:
    第一列為染色體,第二列為SNP名稱,第三列為缺失個數,第四列為總個數,第五列為缺失率


    (這里有一點更正,之前SNP和個體寫反了,感謝評論區提醒。 2020/08/06)
    –geno 篩選SNP
    –mind 篩選個體

    –mind 0.05:如果一個SNP5%的個體中都是缺失的,那么就刪掉該個體。
    –geno 0.05:如果一個個體有5%的SNP都是缺失的,那么就刪掉該SNP。

    哈代平衡

    根據基因型頻率進行篩選。對于哈代平衡可以自行查找資料理解。

    –hardy 計算所有位點的哈溫檢測結果

    結果文件為plink.hwe:

    第一列為染色體,第二列為SNP的ID,第三列為TEST類型,第四列A1為 minor 位點,第五列A2為 major 位點,第六列為基因型分布,對應A1A1, A1A2, A2A2的個數,第六列為觀測雜合度頻率,第七列為期望雜合度頻率,第八列為哈溫平衡的卡方檢驗P-value值。

    –hwe 直接過濾

    次等位基因頻率

    根據基因頻率進行挑選。

    這里談一點個人對次等位基因的理解,某一位點可能為AA,AT,TT,甚至出現更大的變異導致CC,CG,所以才有次等位基因頻率,而不是最小,很多人將minor allele frequency(MAF)解釋為最小等位基因頻率,感覺是不夠準確的。

    某一位點可能有A,T,C,G四種基因情況,四種情況的頻率和應該為1,第二常見的基因型為次等位基因,次等位基因出現的基因頻率就稱為次等位基因頻率。

    而使用MAF進行過濾,是因為一般在人群中肯定是少數患病,那么導致少數人患病的就可能是這個次等位基因,而當MAF小于一定值時,意味著大部分位點都是相同的基因型,這些SNP位點貢獻的信息很少(和所研究關系很小),會增加假陽性。極端情況MAF為0,該位點只有一種基因型,那么致病基因肯定和這個位點無關,故而過濾掉。

    –freq 計算每個SNP位點的次基因頻率

    結果文件為plink.frq:
    第一列為染色體號,第二列為SNP ID,第三列為 minor 位點,第四列為 major 位點,第五列為次等位基因頻率,第六列為等位基因觀察數。

    –maf 直接過濾

    性別檢測

    –check-sex 可以生成性別檢測的結果,然后根據結果構造removesample.txt(名稱自由),再使用 --remove removesamp.txt 將性別出錯的樣本剔除。
    removesample 文本第一列為FID,第二列為IID。

    結果文件為plink.sexcheck:
    第一列為家系ID,第二列為個體ID,第三列為原始數據中所給性別,第四列為根據SNP推斷的性別,第五列是否正常,第六列為F值。

    女性受試者的F值必須小于0.2,男性受試者的F值必須大于0.8。這個F值是基于X染色體近交(純合子)估計。不符合這些要求的受試者第五列為“PROBLEM”,符合則為“OK”。


    將上述質量控制的完整流程總結成可用命令如下:

    plink --bfile inputname --geno 0.05 --mind 0.1 --maf 0.05 --hwe 0.000001 --make-bed --out outputname1 plink --bfile outputname1 --check-sex plink --bfile outputname1 --remove removesamp.txt --make-bed --out outputname2 plink --bfile outputname2 --geno 0.05 --mind 0.1 --maf 0.05 --hwe 0.000001 --make-bed --out outputname3

    上述inputname、outputname均為文件名稱。


    上圖是某次質量控制Plink日志文件的說明。

    其實除了上述質量控制,根據實驗有時也需要做親緣關系的排查,結果如下。
    還有–het,雜合率的檢測,因為本人實驗并不需要這些,有時間再寫。

    上述均根據Plink1.90完成。Plink基本操作可參考PLink常用命令總結,更多有關Plink命令的使用可以在參考中去查找。

    參考:
    http://www.cog-genomics.org/plink2/

    總結

    以上是生活随笔為你收集整理的使用Plink对SNP数据进行质量控制的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。