iMeta教程 | 使用PMS分析微生物组(图文+视频)
點擊藍字 關注我們
利用Parallel-Meta Suite在多平臺下進行交互式微生物組分析
https://doi.org/10.1002/imt2.1
2022/3/6
● 2022年3月6日,青島大學蘇曉泉團隊在iMeta在線發表題為“Parallel-Meta Suite: Interactive and rapid microbiome data analysis on multiple platforms”的研究性文章。開發了軟件包Parallel-Meta Suite(PMS),可在多個平臺上進行快速、全面的微生物組數據分析。
●?前文回顧????iMeta:青島大學蘇曉泉組開發跨平臺可交互的微生物組分析套件PMS(全文翻譯,PPT,視頻)
●?在該文的基礎上,本文對PMS軟件包
進行非常詳細的逐步解讀,方便讀者使用。
●? 第一作者:李堅
●? 通訊作者:蘇曉泉
(suxq@qdu.edu.cn)
摘? ?要
測序通量的提高和測序成本的降低,極大地方便了微生物組研究實驗的開展,進而產生了浩如煙海的組測序數據,這些數據中蘊藏著微生物與其環境表型(如宿主健康或生態系統狀態)之間的關聯。想要破譯隱藏在微生物組數據下的生物信息,出色而又可靠的軟件工具是不可或缺的。然而現在的大多數的軟件,其可用性方面的缺陷為非計算機專業的用戶設置了難以逾越的鴻溝。與此同時,計算通量已經成為了許多分析平臺處理大規模數據集的一個重要瓶頸。本研究開發了Parallel-Meta Suite(PMS),一個用于快速和全面的微生物組數據分析、可視化和注釋的可交互軟件套件。PMS采用了最先進的算法,涵蓋序列微生物組數據物種與功能解析、統計分析、可視化等一系列流程,并具有友好的圖形界面,可以滿足各種用戶的分析需求。為了適應快速增長的計算能力需求,PMS的整個分析流程都使用并行計算策略進行了優化,具備快速處理上萬的樣本的能力。此外,PMS還具有多操作系統兼容、簡易安裝與全自動運行等特性。
關鍵字:微生物組,宏基因組,擴增子,分析流程,可視化,并行計算
Bilibili:https://www.bilibili.com/video/BV16Y4y1v75k
Youtube:https://youtu.be/evrQXfL9ujE
中文翻譯、PPT、中/英文視頻解讀等擴展資料下載
請訪問期刊官網:http://www.imeta.science/
儀器軟件
●?儀器設備
目前Linux(如Ubuntu、CentOS、RedHat等)、Mac OS和Windows 10/11內置的WSL(Windows Subsystem for Linux)等操作系統均能夠支持PMS。
PMS僅需要具有約2GB內存的標準計算機即可支持其安裝與執行。為了更好的體驗和更快的計算速度我們推薦在具有8GB以上內存和4核3.3Ghz以上CPU的標準計算機上使用PMS。
●?軟件
PMS軟件最新版本為3.7。該軟件主要由C++和R語言開發編寫。
C++語言需要安裝C++編譯器(例如g++)。對于Linux操作系統,大多版本已經在系統中安裝了g++。對于Mac OS,建議從App Store安裝Xcode應用程序,即可完成編譯器的安裝與配置。
R語言需要安裝r-base提供運行環境。對于Linux操作系統,可以使用系統自帶的包管理工具安裝r-base。對于Mac OS,建議從App Store安裝RStudio應用程序,即可完成R運行環境的安裝與配置。
實驗步驟
●?1. 安裝Parallel-Meta Suite
我們建議選擇步驟 1.1 中自動安裝的方式來配置PMS軟件。但如果自動安裝程序失敗,可以按照步驟 1.2 中的步驟手動安裝PMS軟件。
1.1 自動安裝(首選方案)
1)下載對應操作系統的軟件安裝包
Linux和WSL的下載命令:
wget http://bioinfo.single-cell.cn/Released_Software/parallel-meta/3.7/parallel-meta-suite-3.7-src.tar.gzMacOS的下載命令:
curl -O http://bioinfo.single-cell.cn/Released_Software/parallel-meta/3.7/parallel-meta-suite-3.7-src-mac.tar.gz2)解壓縮
使用以下命令對安裝包進行解壓縮:
tar –xzvf parallel-meta-suite-3.7-src.tar.gz3) 安裝
運行以下安裝命令:
cd parallel-meta-suite source install.sh按照上述步驟操作,該軟件包可以在30分鐘內安裝到計算機上,安裝成功后提示信息如下(圖1)所示:
圖1. Parallel-Meta Suite安裝成功提示信息
示例數據集在安裝包內“examples”文件夾下,可以查看 “examples/Read me”中的內容來獲取演示運行的詳細信息,或直接運行:
sh Readme來自動演示示例數據集的處理運行。
該示例數據集包含一個文件夾和三個文件,其中,seqs文件夾中存放的是需要分析的樣本序列,seqs.list為每個樣本對應的序列存放路徑。(格式詳見表1),meta.txt為每個樣本的meta信息(格式詳見表2)。
1.2?手動安裝(備選方案)
1)下載對應系統的安裝包
與1.1步驟一致。
2)解壓縮
與1.1步驟一致。
3)配置環境變量。
將以下內容,寫入環境變量配置文件(Linux和Windows 10 WSL系統一般是$HOME/.bashrc,Mac系統一般是$HOME/.zshrc)。
export ParallelMETA=Path to Parallel-Meta Suite export PATH="$PATH:$ParallelMETA/bin" export PATH="$PATH:$ParallelMETA/Rscript"make并啟用環境變量(如Linux下)
source ~/.bashrc4)安裝R包
Rscript $ParallelMETA/Rscript/config.R5)編譯源代碼
cd parallel-meta-suite make●?2.?輸入格式
2.1 樣本序列
一個序列文件中包含單個樣本的所有測序數據。PMS可以接受fastq和fasta格式的測序數據。序列可以是擴增子測序序列(包括16S rRNA gene、18S rRNA gene和ITS gene),也可以是宏基因組鳥槍法測序序列(shotgun metagenome)。
2.2 樣本列表
樣本列表為純文本格式文件,其中含有多個樣本的ID和測序數據文件的地址路徑(表1)。該文件有兩列信息,第一列為樣本的ID,第二列表示每個樣本測序數據文件的路徑。為了保證路徑的合法性,我們強烈建議使用絕對地址(即包含完整的路徑名稱,如表1所示)。
表1. 文件列表格式
2.3?Meta信息
Meta信息文件為純文本格式文件,包含測序樣本的meta信息,通常會有多列,其中第一列是樣本的ID,其他列為meta信息的項目,如表2所示。需要注意的是,樣本ID命名及其順序需要與樣本列表中的樣本ID保持一致。
表2.meta信息文件格式
●?3.?分析
3.1 自動化分析流程
PMS具有一個圖形化交互式的“配置向導”,位于程序包中的PMS-config文件夾中,其名稱為“index.html”。用網頁瀏覽器打開后可以看到其主界面,如圖2所示。在初始狀態下,所有的參數已設為默認值,只需填入必要的基本參數(如輸入/輸出類型和路徑)就可以進行分析。也可以調整高級選項,以進一步對剖析、多樣性分析和統計這些步驟進行定制。最后,根據用戶的設置,該配置向導可以生成相應的可執行命令。
圖2. 配置向導頁面
在此,我們將展示PMS在不同計算平臺和環境下的三個典型場景的使用情況和經驗(圖3)。需注意的是配置指南是可以獨立運行的,配置過程可和分析過程可能在不同設備和環節下執行,但輸入輸出文件路徑還是要以分析執行的設備為準。
圖3. PMS在不同場景和平臺的三種典型使用方式
(A)在本機使用配置向導進行參數配置,并在本機進行運算分析;(B)在本機使用配置向導進行參數配置,并在遠程服務器上進行運算分析;(C)使用命令行進行參數配置(本地和遠程均可)
3.1.1 場景一:在本地使用配置向導進行參數配置,并在本地進行運算分析
PMS可以在“本地”個人電腦(如筆記本電腦)中安裝和執行,以處理少量樣品(比如少于200;圖3A)。該場景適用于Linux(安裝GUI桌面)、Mac或Windows 10+(需要安裝Windows Subsystems for Linux(WSL))操作系統。配置完成后,通過點擊頁面底部的“Generate”和“Copy”按鈕,就會生成一條有效的命令并復制到剪貼板中。然后將這個單行命令粘貼在本地終端,就可以成功運行PMS分析流程,而不需要進行其他操作。
3.1.2 場景二:在本地使用配置向導進行參數配置,并在遠程服務器上進行運算分析
大量樣本(比如大于1,000)的處理和運算需要更長的時間和更多的計算資源,我們建議在更強大的服務器上運行PMS的分析流程。通常這樣的服務器需要遠程登錄(例如,通過SSH),并且只提供一個基于命令的終端來操作軟件。在這種情況下(圖3B),用戶應在服務器上安裝PMS,在本地計算機下載并打開配置向導(下載軟件包中PMS-config文件夾,并用瀏覽器打開其中的“index.html”文件)以生成命令,并在遠程服務器的終端上運行這些命令。因此,整個分析流程可以很容易地配置和執行,而無需大量的數據傳輸。
3.1.3 場景三:使用命令行進行參數配置
PMS也支持基于命令行的操作,此種方式通常是在沒有GUI的條件下,或者針對有經驗的用戶(圖3C)。整個分析流程可以在高度靈活的配置下工作,例如,用定制的參數運行每個步驟,或者只執行工作流程中的選定步驟。命令行界面還提供了教程,描述了詳細的用法和分析流程在每個單一步驟中的簡要幫助信息,可以通過“-h”參數來查看。以下命令是基于命令行操作中的簡單范例:
PM-pipeline -i seqs.list -m meta.txt -o output其中,PM-pipeline是PMS的自動化分析程序;“seqs.list”是輸入的樣本擴增子測序序列列表(表1),用“-i”指定;“meta.txt”是輸入meta信息(表2),用“-m”指定;“output”是輸出文件夾,用“-o”指定。
3.2 查看結果
整個分析流程完成后,會在輸出目錄中自動創建結果導覽,其文件名為“index.html”,可用網頁瀏覽器打開。該頁面會將所有分析結果分類(圖4),為微生物組分析結果提供直接和清晰的解釋。此外,在輸出目錄中,所有的原始結果(如相對豐度表、距離矩陣等)也會保留(表3),用于進一步深入的數據挖掘或元分析。此外,在結果文件夾中還提供了分析總結、工作日志和詳細的分步工作流程腳本。
圖4. PMS的結果導覽頁面
表3. 輸出目錄的文件列表
3.3 中間結果重分析
除了測序序列之外,PMS還可以接受以中間結果作為輸入,對其進行重分析,例如,以樣本豐度表或中間結果列表作為輸入(表3),從而避免了重復的序列處理所造成的計算時間和資源的消耗。在圖2的配置向導中,選擇輸入類型為“Demultiplexed OTU Table List”,可將中間結果列表(例如,輸出目錄中“Single_Sample.List”文件夾下的“taxa.list”文件)作為輸入;或者選擇輸入類型為“Combined OTU Table”,可將樣本豐度表(例如,輸出目錄中“Abundance_Tables”文件夾下的“taxa.OTU.Count”文件)作為輸入。此外,命令行操作中也有相應的輸入格式,例如:
PM-pipeline -l output/Single_Sample.List/taxa.list -m meta.txt -o output_new ## 或者 PM-pipeline -T output/Abundance_Tables/taxa.OTU.Count -m meta.txt -o output_new即為以上配置向導中等效的配置命令。
●??4.? Parallel-Meta Suite的工作流程
PMS的分析工作流程如圖5所示。PMS可以接受宏基因組的鳥槍序列或擴增子序列作為原始輸入。對于鳥槍法測序序列,利用隱式馬爾可夫模型(Mistry等, 2013)識別和提取標記基因片段(如16S rRNA或18S rRNA基因)。對于擴增子序列,PMS對標記基因進行ASV降噪(Callahan等, 2017)和去嵌合體(Edgar等, 2011),以降低測序錯誤的干擾(這一步驟對于鳥槍法測序序列的默認設置是關閉,也可由用戶自行開啟)。然后,通過內置的vsearch(Rognes等, 2016)將序列與參考數據庫進行比對,進行從界級到物種級的剖析和分類學注釋。每個分類級別上群落成員的相對豐度也使用標記基因拷貝數進行校正。之后,使用PICRUSt算法(Douglas等, 2020)預測功能信息的KEGG Orthology(KO)基因家族,并通過KEGG BRITE層次結構對代謝途徑進行注釋。PMS還通過NSTI(Nearest Sequenced Taxonomy Index)值來衡量功能的預測準確性(Langille等, 2013),NSTI是由OTU和它們在系統發育結構中最近的單獨測序的親屬之間的距離之和計算出來。
圖5. PMS的工作流程
微生物組的物種信息通過Krona(Ondov等, 2011)和條形圖進行可視化。然后,在用戶選擇的特定分類學或路徑級別上進行微生物多樣性分析、生物標記物選擇和共現網絡構建。α多樣性分析計算每個樣品的香農、辛普森和Chao1指數。對于離散的元數據(如類型、狀態、性別等),α多樣性指數進行Wilcoxon或Kruskal秩和檢驗,對于連續變量(如年齡、BMI、PH值等)進行回歸分析。β多樣性通過加權/非加權Meta-Storms(Su等, 2012)算法(針對物種分類)或Hierarchical Meta-Storms(Zhang等, 2021)(針對功能)計算所有樣本之間距離矩陣,并通過熱圖進行可視化。之后,通過PCoA(主坐標分析)和PCA(主成分分析)圖展示β-多樣性模式,對離散元數據進行PERMANOVA和ANOSIM檢驗,對連續變量和距離值進行回歸分析。在生物標志物分析中,PMS使用Wilcoxon或Kruskal秩和檢驗,選擇出在不同組別(離散數據變量)間具有顯著差異的微生物或基因單元作為候選標記物,然后通過隨機森林(Vangay等, 2019; Qian等, 2020)的重要性進行排序。與連續變量密切相關的微生物組特征也通過回歸分析被挑選出來作為生物標志物。在共現網絡中,網絡節點是群落特征(例如,一個微生物分類單元),網絡的邊代表節點間的Spearman相關性,然后計算網絡密度、直徑、半徑和集中度來量化網絡屬性。
結果與分析
為了證明PMS在解碼微生物組概況和將生態模式與關鍵meta數據聯系起來的能力,這里選取了醫院開業前后室內微生物組的變化驗證。所有的數據集均可在 PMS 軟件下載頁面的“Supplementary”部分中下載。
數據集包含894個來自醫院開業前后室內環境的16S-擴增子微生物組樣本。我們用所有的默認參數執行了PMS分析流程。從結果中我們可以觀察到,醫院開放后,α多樣性的香農指數下降(圖6A;Wilcoxon檢驗p值<0.01),整體群落的β多樣性明顯轉變(圖6B;加權Meta-Storms距離,PERMANOVA檢驗p值<0.01),均已被Lax等人(Lax等, 2017)驗證過。兩個時間點之間的這種微生物動態也可以通過相對豐度的變化來說明(圖6C)。使用統計測試和機器學習分析方法,PMS還確定了有助于區分醫院表面從開業前到開業后狀態的這種生態變化的最重要的微生物,如葡萄球菌、萊茵海拉菌和莫德斯特菌。這個機器學習模型在區分室內樣本(圖6D)的屬級狀態方面達到了95.91%的準確率(誤差率=4.09%)。
圖6. 醫院開業前后室內微生物組的變化
(A)醫院開業后,α多樣性的香農指數下降,Wilcoxon測試P值<0.01(P值<0.05表示差異顯著);
(B)根據加權的Meta-Storms距離,開院前和開院后狀態下的整體β多樣性有顯著差異,PERMANOVA檢驗P值<0.01;
(C)兩個時間點之間屬水平的相對豐度的動態變化;
(D)五種細菌屬被選為可以區分兩個時間點的生物標志物。X軸是隨機森林模型產生的重要性得分(準確性的平均下降),該模型評估了每個生物標志物對區分不同醫院狀態的重要性
失敗經驗
●?問題1
安裝提示:“make: g++: command not found”
問題原因:沒有安裝Parallel-Meta Suite所需要的g++編譯器。
解決方法:根據不同的操作系統,利用相應的命令安裝 g++,常見的操作系統:
Ubuntu Linux系統:sudo apt-get install g++
CentOS Linux系統:sudo yum install g++
Mac OS 系統:通過App Store安裝Xcode應用程序
●?問題2
運行提示:“Please set the environment variable ParallelMETA to the directory”
問題原因:環境變量設置失敗。
解決方法:請參考實驗步驟 1.2.2 中手動配置環境變量的方法將 Parallel-Meta Suite 所需要的環境變量添加到配置文件中。
●?問題3
運行提示:“PM-pipeline: command not found”
問題原因:環境變量設置失敗。
解決方法:請參考實驗步驟 1.2.2 中手動配置環境變量的方法將 Parallel-Meta Suite 所需要的環境變量添加到配置文件中。
●?問題4
運行提示:“Error: Cannot open file: XXX”
問題原因:輸入了錯誤的輸入/輸出文件路徑。
解決方案:請檢查正確的輸入文件路徑(可在輸入時用Tab 鍵自動補全),并確保用戶在輸出路徑下有足夠的寫權限。
●?問題5
運行提示:“Argument #X Error : Arguments must start with -”
問題原因:運行命令中所有參數選項名稱必須以“-”開頭。
解決方法:請檢查第 X 個參數并更正。
致謝
本項工作得到了國家重點研發計劃2021YFF0704500、國家自然科學基金31771463和32070086項目的支持。
引文格式
Yuzhu Chen, Jian Li, Yufeng Zhang, Mingqian Zhang, Zheng Sun, Gongchao Jing, Shi Huang, Xiaoquan Su. 2022. Parallel-Meta Suite: Interactive and rapid microbiome data analysis on multiple platforms. iMeta 1: e1. https://doi.org/10.1002/imt2.1
作者簡介
陳俞竹
●??青島大學軟件工程學術碩士,2019年公派至瑞典布萊津理工大學交換學習。
●??目前研究方向為微生物組大數據分析與挖掘,相關學術成果已發表于iMeta、Computational and Structural Biotechnology Journal等期刊。
李堅
●?青島大學電子信息專業碩士。
●?前中興通訊工程師,后考入青島大學攻讀碩士學位。目前研究的主要課題為微生物組分析工具。
蘇曉泉(通訊作者)
●?青島大學教授,博士生導師。
●?研究方向為生物信息學與大數據科學,已在mBio、mSystems、Bioinformatics、iMeta等期刊發表學術論文40余篇,主持國家自然科學基金項目、國家重點研發子課題、山東省自然基金重大基礎項目、中科院重點部署項目子課題等,相關成果獲得8項軟件著作權。
更多推薦
(▼ 點擊跳轉)
iMeta文章中文翻譯+視頻解讀
iMeta | 南科大宋毅組綜述逆境脅迫下植物向微生物組求救的遺傳基礎(附招聘)
????
iMeta:德布魯因圖在微生物組研究中的應用
????
iMeta:哈佛劉洋彧等基于物種組合預測菌群結構的深度學習方法
????
iMeta:吳青龍/王明福/劉金鑫等-從腸道菌群看待人類對高原飲食的適應性
????
iMeta:西農韋革宏團隊焦碩等-土壤真菌驅動細菌群落的構建
????
iMeta:高顏值高被引繪圖網站imageGP
iMeta教你繪圖
使用ImageGP繪圖熱圖Heatmap
????
使用ImageGP繪圖富集分析泡泡圖
期刊簡介
“iMeta” 是由威立、腸菌分會和本領域數百位華人科學家合作出版的開放獲取期刊,主編由中科院微生物所劉雙江研究員和荷蘭格羅寧根大學傅靜遠教授擔任。目的是發表原創研究、方法和綜述以促進宏基因組學、微生物組和生物信息學發展。目標是發表前10%(IF > 15)的高影響力論文。期刊特色包括視頻投稿、可重復分析、圖片打磨、青年編委、前3年免出版費、50萬用戶的社交媒體宣傳等。2022年2月正式創刊發行!
聯系我們
iMeta主頁:http://www.imeta.science
出版社:https://onlinelibrary.wiley.com/journal/2770596x
投稿:https://mc.manuscriptcentral.com/imeta
郵箱:office@imeta.science
?微信公眾號?
iMeta
?責任編輯?
微微?
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的iMeta教程 | 使用PMS分析微生物组(图文+视频)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: IP设置同一网段
- 下一篇: 计算机重复启动问题原因及修复