tassel软件使用linux,【技术干货】动植物GWAS经典软件TASSEL的使用
原標(biāo)題:【技術(shù)干貨】動植物GWAS經(jīng)典軟件TASSEL的使用
做功能基因定位的生物狗基本都知道,經(jīng)過10來年的發(fā)展,關(guān)聯(lián)分析與連鎖分析一樣,已經(jīng)成為一項(xiàng)基本工具,廣泛應(yīng)用于動植物功能基因挖掘中。在動植物(尤其是植物)的關(guān)聯(lián)分析中,TASSEL軟件是最早出現(xiàn)的開源軟件,相對于其他軟件,TASSEL也是使用的最廣泛的,您想不想知道在您有了表型、基因型之后,怎么使用TASSEL進(jìn)行關(guān)聯(lián)分析呢?往下看吧
,小編教你啊~
先給軟件的下載地址 http://www.maizegenetics.net/tassel
在拿到表型和基因型(我們以vcf為例)后,完成GWAS分析,你只需要5步。
第一步 數(shù)據(jù)質(zhì)控
內(nèi)容包括:
1)按分型百分比條件過濾,多數(shù)文章剔除缺失率在20%以上的位點(diǎn),樣本量較大的群體中,可以將缺失率小于50%的位點(diǎn)都保留;
2)按等位基因頻率過濾,通常去除最小(或第二)等位基因頻率小于5%的位點(diǎn),樣本量較大的群體中,可以降低到1%;
3)多等位位點(diǎn)的過濾(當(dāng)軟件無法接受時);
4)有時候還會去除缺失數(shù)據(jù)太多的樣本(基因型缺失比例大于20%或更高);
5)哈迪溫伯格平衡過濾,一般在無法使用較為復(fù)雜的統(tǒng)計(jì)模型的情況下使用,如人類的Case/Control GWAS中一般將不符合哈迪溫伯格平衡的位點(diǎn)過濾掉,動植物GWAS中一般不過濾;
6)表型極端值去除,用Excel從小到大排一下序看看就知道了。
如果你熟悉plink軟件(https://www.cog-genomics.org/plink2),那么第1)到第5)點(diǎn)就變得非常easy了,一條命令行即可以搞定:
./plink --vcf ./test.vcf --maf 0.05 --geno 0.2 --mind 0.2 --hwe 0.001 --biallelic-only --recode vcf-iid --out test.bia.maf0.05.int0.8.ind0.8.hwe0.001 --allow-extra-chr
--vcf 表示輸入的文件為vcf文件
--maf 控制第二等位基因頻率的,我們這里設(shè)置為不小于5%
--geno 控制位點(diǎn)基因型的缺失比例的,我們這里設(shè)置為20%,即缺失比例大于20%的位點(diǎn)都會過濾掉
--mind 控制樣本基因型缺失比例的,我們這里設(shè)置為20%,即基因型缺失比例大于20%的位點(diǎn)都會被過濾掉
--hwe 哈迪溫伯格平衡顯著性閾值的,我們這里設(shè)置為0.001,即哈迪溫伯格平衡檢驗(yàn)p值小于0.001的位點(diǎn)都會被過濾掉
--biallelic-only 表示只保留二等位位點(diǎn)
--recode 把基因編碼為某種格式,我們這里還是輸出為與輸入文件一樣的vcf,所以選vcf-iid,另外還有十幾種格式,有需要的生物狗狗們可以到plink的官網(wǎng)上看看
--out 給定輸出文件的前綴
--allow-extra-chr 允許存在22+X+Y以外的染色體,非人類數(shù)據(jù)建議都把這一項(xiàng)給上
我們要講的TASSEL軟件,也可以完成一些過濾,導(dǎo)入數(shù)據(jù)vcf數(shù)據(jù)后(File -- open),選中導(dǎo)入的基因型文件,點(diǎn)擊Filter菜單操作就行了,具體如下圖。
第二步 群體結(jié)構(gòu)分析
群體結(jié)構(gòu)分析的內(nèi)容其實(shí)是很豐富的,包括系統(tǒng)發(fā)育樹的構(gòu)建(用于直觀地看出樣本的亞群分化情況);基于模型的(model-base)群體結(jié)構(gòu)分析,可以使用的軟件包括STRUCTURE、Admixture等,分析結(jié)果可以獲得Q矩陣,用于關(guān)聯(lián)分析;數(shù)學(xué)降維的主成分分析,也就是我們常說的PCA分析,獲得樣本的主成分得分表,也可以作為Q矩陣用于關(guān)聯(lián)分析。
本帖小編帶領(lǐng)大家用TASSEL進(jìn)行PCA分析,獲得的結(jié)果作為Q矩陣用于關(guān)聯(lián)分析,系統(tǒng)發(fā)育樹的構(gòu)建(各種樹)方法可以參考百邁客云課堂(http://live.biocloud.net/course/21)相關(guān)的課程,STRUCTURE的使用介紹見今天下午的直播課程或者云課堂。
PCA分析:導(dǎo)入vcf后,選中導(dǎo)入的基因型文件,依次選擇Analysis--Relatedness--PCA即可。
獲得的結(jié)果包括樣本在各個PC(上面選返回多少個就顯示多少個的信息)的得分表以及每個PC的特征值列表;如下兩圖:
第三步 親緣關(guān)系分析
親緣關(guān)系衡量的是兩兩樣本間的相關(guān)關(guān)系(可能是血緣的或者其他的)的數(shù)值,計(jì)算的方法很多(具體介紹見云課堂GWAS生信培訓(xùn)班),親緣關(guān)系矩陣(K)在MLM模型中作為隨機(jī)效控制關(guān)聯(lián)結(jié)果的假陽性。在TASSEL中,基于分子標(biāo)記,獲得親緣關(guān)系矩陣有兩種方法,一種是計(jì)算Distance Matrix(Analysis -- Distance Matrix),另一種是計(jì)算Kinship(Analysis -- Kinship),兩種途徑獲得的結(jié)果都可以用于關(guān)聯(lián)分析,沒有說非要用哪一種才是最好的。
我們以計(jì)算Kinship為例,操作圖示如下,OK以后即可得到結(jié)果。
第四步 關(guān)聯(lián)分析
獲得Q矩陣,K矩陣后,導(dǎo)入性狀數(shù)據(jù),我們就可以進(jìn)行關(guān)聯(lián)分析了,關(guān)聯(lián)分析之前,我們需要將基因型、性狀、Q矩陣合并:按Ctrl鍵,鼠標(biāo)依次選擇基因型列表、樣本在前5個PC的得分矩陣、性狀列表,選擇Data--Intersect jion完成合并。
終于進(jìn)入正題了,下面的操作將教會大家如何用TASSEL完成GLM和MLM/CMLM的關(guān)聯(lián)分析。
GLM:選中性狀+基因型+PC列表;Analysis--Genotype/Phenotype Association--GLM;選擇輸出路徑,填寫輸出文件名,然后點(diǎn)擊OK即可。
MLM/CMLM:選中性狀+基因型+PC列表和親緣關(guān)系列表,Analysis--Genotype/Phenotype Association--GLM;選擇輸出路徑,填寫輸出文件名,然后點(diǎn)擊Okay即可。
結(jié)果如下
第五步 繪圖展示
把結(jié)果文件導(dǎo)入TASSEL中,選中導(dǎo)入的文件,Results--Manhattan plo/QQ plot即可繪出相關(guān)圖形(TASSEL自帶繪圖功能畫出來的圖,小編真心覺得挺丑);想知道漂亮的圖怎么畫出來的嗎,請參加今天下午的直播課程吧,小編手把手教你,包教包會。
通過上面的學(xué)習(xí),相信大家已經(jīng)學(xué)會了都動植物經(jīng)典關(guān)聯(lián)分析軟件TASSEL的使用,以上展示的是該軟件界面版的使用方法,界面版的軟件在數(shù)據(jù)量比較小的時候操作起來比較順暢,但是,如果數(shù)據(jù)量比較大的話,界面版的可能hold不住了,這時您可能想起要用命令行版的,那命令行版該怎么使用呢,請參加下午四點(diǎn)半的直播培訓(xùn),我們一一為您講解。
TASSEL目前只能實(shí)現(xiàn)GLM/MLM/CMLM三種模型,其他常用模型如EMMAX、FaST-LMM(樣本間親緣關(guān)系對結(jié)果的影響比較大的時候建議選擇這兩種模型)等的使用方法以及GAPIT、Admixture軟件的使用方法,請看百邁客云課堂GWAS生信專題培訓(xùn)班的內(nèi)容(http://live.biocloud.net/course/21)。
想要參加今天下午的直播培訓(xùn)的老師們,請下載演示數(shù)據(jù),鏈接: https://pan.baidu.com/s/1nv9TFM5 密碼: up8d;并提前配置好Java環(huán)境,安裝好以下軟件:
STRUCTURE:https://web.stanford.edu/group/pritchardlab/structure.html
CLUMMP:https://rosenberglab.stanford.edu/clumpp.html
R:https://www.r-project.org/
Pophelper:http://royfrancis.github.io/pophelper/
CMplot:https://github.com/YinLiLin/R-CMplot返回搜狐,查看更多
責(zé)任編輯:
總結(jié)
以上是生活随笔為你收集整理的tassel软件使用linux,【技术干货】动植物GWAS经典软件TASSEL的使用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 对存储还搞不清楚,先看看这篇文章-从51
- 下一篇: 越老越值钱,除了程序员!