日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

Nature:Rob Knight团队发现血液和组织微生物组可诊断癌症

發(fā)布時(shí)間:2023/12/14 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Nature:Rob Knight团队发现血液和组织微生物组可诊断癌症 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Nature:血液和組織中的微生物組分析可作為癌癥的診斷方法

Nature [IF: 42.778]

全文鏈接:https://doi.org/10.1038/s41586-020-2095-1

發(fā)表日期:2020-03-11

第一作者:Gregory D. Poore1 & Evguenia Kopylova2

通訊作者:Rob Knight(robknight@ucsd.edu)1,2,3,4

主要單位

1 美國加州大學(xué)圣地亞哥分校生物工程系(Department of Bioengineering, University of California San Diego, La Jolla, CA, USA)

2 美國加州大學(xué)圣地亞哥分校兒科(Department of Pediatrics, University of California San Diego, La Jolla, CA, USA)

3 美國加州大學(xué)圣地亞哥分校微生物群創(chuàng)新中心(Center for Microbiome Innovation, University of California San Diego, La Jolla, CA, USA)

4 美國加州大學(xué)圣地亞哥分校計(jì)算機(jī)科學(xué)與工程系(Department of Computer Science and Engineering, University of California San Diego, La Jolla, CA, USA)


摘要

癌癥與全身微生物組的相關(guān)性,使得利用微生物衍生分子來診斷人類重大疾病成為可能。最近有證據(jù)表明,一些癌癥對(duì)微生物有較大影響。本研究重新核查了癌癥基因組圖譜(TCGA)中的33種癌癥的全基因組和全轉(zhuǎn)錄組測序研究尋找微生物片段(總共18,116個(gè)樣本)。這些研究均來自未接受治療的患者,并在大多數(shù)主要的癌癥類型中和不同癌癥類型之間的組織和血液中發(fā)現(xiàn)了獨(dú)特的微生物特征。盡管使用了非常嚴(yán)格的數(shù)據(jù)清洗方法,舍棄了總序列數(shù)據(jù)的92.3%的,這些TCGA的血液特征性信息僅對(duì)于以下兩種患者具有預(yù)測性:Ia-IIc期癌癥和無任何基因組改變的癌癥(目前在兩個(gè)商業(yè)級(jí)無細(xì)胞腫瘤DNA平臺(tái)上測量到的)。此外,僅使用血漿來源的無細(xì)胞微生物核酸,就可以區(qū)分來自健康的、無癌癥的個(gè)體(n=69)和來自多種癌癥(前列腺癌、肺癌和黑色素瘤;總共100個(gè)樣本)患者的樣本。這一基于微生物組的腫瘤學(xué)診斷工具值得進(jìn)一步探索。


背景

癌癥通常被認(rèn)為是一種基因組疾病。然而,最近的研究表明,菌群與某些類型的癌癥有很大的關(guān)聯(lián),特別是糞菌與胃腸道癌癥緊密相關(guān)。然而,微生物與不同類型癌癥的關(guān)聯(lián)的程度和診斷意義尚不清楚。因?yàn)樵诎┌Y基因組學(xué)項(xiàng)目中很少采取程序性控制,樣本在采集、處理和測序過程中可能受到污染從而限制了這些研究的開展。使用最近開發(fā)的工具能將污染物對(duì)微生物特征的影響降到最小(原文引文14-18介紹了一系統(tǒng)微生物污染處理的實(shí)驗(yàn)和分析方法),使基于微生物的診斷的研究發(fā)展成為可能。

為了表征與癌癥相關(guān)的微生物,本研究從TCGA全基因組測序數(shù)據(jù)庫(WGS;n = 4831)和全轉(zhuǎn)錄組測序(RNA-seq;n = 13,285)研究中重新檢查了來自10,481名患者和33種癌癥的18,116個(gè)樣本中的微生物片段。微生物片段以前是在特定分析(包括胃腺癌中的Epstein–Barr virus(EBV)和宮頸癌中的人乳頭狀瘤病毒(HPV))中確定的,并已在一小部分樣本中進(jìn)行了系統(tǒng)研究(例如,來自19種癌癥的4433個(gè)TCGA樣本的病毒組和9種癌癥的1,880個(gè)TCGA樣本的細(xì)菌組)。大多數(shù)TCGA測序數(shù)據(jù)仍未進(jìn)行微生物分析。在這里,本研究展示了迄今為止最全面的癌癥微生物組數(shù)據(jù)集,使用兩種途徑進(jìn)行微生物檢測,系統(tǒng)地評(píng)估和降低采用技術(shù)的差異和測序片段的污染。本研究使用機(jī)器學(xué)習(xí)(ML)來識(shí)別區(qū)分不同類型癌癥的微生物特征,并比較它們的檢驗(yàn)效能。

由于TCGA數(shù)據(jù)處理沒有去除污染的微生物片段,也沒有排除健康個(gè)體,血液樣本是TCGA樣本中最有可能包含外來微生物污染的樣本類型,因此本研究采用微生物分析方法的金標(biāo)準(zhǔn)對(duì)血液樣本進(jìn)行再次分析。本研究將血漿來源的微生物DNA信息與臨床上應(yīng)用的無細(xì)胞腫瘤DNA(ctDNA)分析進(jìn)行對(duì)應(yīng)比較。對(duì)前列腺癌、肺癌或皮膚癌患者(總共100人)和健康、無癌癥和艾滋病對(duì)照者(69人)的血漿樣本進(jìn)行的深度宏基因組測序表明,無細(xì)胞微生物圖譜可以實(shí)現(xiàn)健康與癌癥以及癌癥與癌癥的區(qū)分。這些發(fā)現(xiàn)提出了一種新的基于微生物組的癌癥診斷工具,可能會(huì)補(bǔ)充現(xiàn)有的用于檢測和監(jiān)測癌癥的ctDNA分析方法。


TCGA中癌癥相關(guān)微生物組及其標(biāo)準(zhǔn)化

TCGA cancer microbiome and its normalization

在TCGA中的6.4×1012個(gè)測序讀長中,7.2%為非人類基因,其中35.2%(占總讀長的2.5%)為細(xì)菌、古菌或病毒,這其中12.6%(占總讀數(shù)的0.9%)采用Kraken解析至屬水平,它將短基因組子字符串(k-mers)與參考數(shù)據(jù)庫中的分類單元相匹配(圖1a)。在進(jìn)行了數(shù)據(jù)質(zhì)控和篩選之后得到的樣本的元數(shù)據(jù)(圖1b),并在同一癌癥類型和樣本類型內(nèi)按樣本數(shù)進(jìn)行標(biāo)準(zhǔn)轉(zhuǎn)化,全基因組測序(WGS)在以下四種情況提供的微生物讀長明顯多于轉(zhuǎn)錄組測序(RNA-seq)實(shí)驗(yàn):原發(fā)性腫瘤(primary tumour)、正常實(shí)體組織/癌旁(solid tissue
normal)、轉(zhuǎn)移性的(metastatic)和復(fù)發(fā)的(recurrent)腫瘤樣本??焖俚膋-mer匹配方法容易出現(xiàn)假陽性結(jié)果,所以本研究對(duì)四種TCGA類型的癌癥(宮頸鱗狀細(xì)胞癌(CESC)、胃腺癌(STAD)、肺腺癌(LUAD)和卵巢漿液性囊腺癌(OV))具有特異性的Kraken陽性的屬水平微生物信息與已知的微生物關(guān)系和/或與配對(duì)的蛋白質(zhì)組數(shù)據(jù)進(jìn)行比對(duì)。結(jié)果發(fā)現(xiàn)較低的假陽性率1.09%,這表明Kraken數(shù)據(jù)對(duì)下游分析是有效的。

已知TCGA表達(dá)和人類基因組數(shù)據(jù)顯示出巨大的的批次效應(yīng),這種效應(yīng)在宏基因組數(shù)據(jù)中同樣存在(圖1c)。因此,本研究使用Voom實(shí)現(xiàn)了一個(gè)聚合分析,將離散分類計(jì)數(shù)轉(zhuǎn)換為每個(gè)樣本的百萬比對(duì)數(shù)(log-cpm),并進(jìn)行有監(jiān)督的標(biāo)準(zhǔn)轉(zhuǎn)換(SNM)標(biāo)準(zhǔn)化。主方差成分分析表明,標(biāo)準(zhǔn)轉(zhuǎn)換降低了技術(shù)差異引起的批次效應(yīng),同時(shí)增加了包括癌癥類型在內(nèi)的生物信號(hào)(圖1d,e)。

圖1|TCGA癌癥微生物組分析的方法和結(jié)果

Fig. 1 | Approach and overall findings of the cancer microbiome analysis of TCGA.

a、棒棒糖曲線圖,顯示微生物檢測分析占所總測序讀長的百分比,以及由Kraken設(shè)置的TCGA數(shù)據(jù)集中在屬水平精度的那些測序讀長的百分比。LAML,急性髓性白血病;PAAD,胰腺癌;GBM,多形性膠質(zhì)母細(xì)胞瘤;PRAD,前列腺癌;ESCA,食道癌;TCGT,睪丸生殖細(xì)胞腫瘤;BRCA,乳腺浸潤性癌;THCA,甲狀腺癌;KICH,腎臟嫌色;胸腺瘤;READ,直腸腺癌;SARC,肉瘤;UVM,葡萄膜黑色素瘤;CHOL,膽管癌;ACC,腎上腺。b、顯示質(zhì)量控制過程和剩余樣本數(shù)量的流程表。FFPE,固定福爾馬林石蠟包埋。c、Voom標(biāo)準(zhǔn)化數(shù)據(jù)的主成分分析(PCA),同一測序中心數(shù)據(jù)顯示為同一種顏色。d、Voom-SNM數(shù)據(jù)的主成分分析。e,原始分類計(jì)數(shù)數(shù)據(jù)、Voom標(biāo)準(zhǔn)化數(shù)據(jù)和Voom-SNM數(shù)據(jù)的主方差分量分析。f-h,分類器性能指標(biāo)的熱圖(AUROC(ROC)和AuPR(PR))從紅色(高)到藍(lán)色(低),用于區(qū)分TCGA原發(fā)性腫瘤(f)、腫瘤和正常樣本(g)以及I期和IV期癌癥(h)。

癌癥類型與分期的微生物預(yù)測模型

Predicting among and within types of cancer

本研究使用標(biāo)準(zhǔn)化數(shù)據(jù),訓(xùn)練隨機(jī)梯度增強(qiáng)的機(jī)器學(xué)習(xí)模型來區(qū)分癌癥的類型和分期。這些模型在區(qū)分 (i)一種癌癥類型與所有其他類型(n = 32種癌癥);(ii)腫瘤與正常(n = 15種癌癥)(圖1f,g)方面的性能很強(qiáng)(http://cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser/ 分析結(jié)果提供了可查詢的網(wǎng)站——癌癥微生物組,有利于同行于利用數(shù)據(jù))。癌癥類型之間敏感性和特異性的差異可能部分是由樣本量決定的,因?yàn)樵谝环N癌癥類型與所有其他類型的比較中,樣本量較小的類型與AUROC(ROC曲線下的面積,area under the receiver operating characteristic curve)和AUPR(精確-召回曲線下的面積,area under the precision–recall curve)值之間存在顯著的線性關(guān)系。盡管這些歷史組織樣本的空間檢查不在本研究的范圍之內(nèi),但癌癥微生物的異質(zhì)性也可能是不同癌癥類型之間差異的另一個(gè)原因。基于組織的微生物分類模型在區(qū)分結(jié)腸腺癌(colon adenocarcinoma,COAD)、STAD和腎透明細(xì)胞癌(KIRC,kidney renal clear cell carcinoma)的I期和IV期腫瘤(n = 8種癌癥)方面效果較好,但在其他5種被類型的癌癥中表現(xiàn)不佳(圖1h),而且該模型也不能區(qū)分II期和III期。這些結(jié)果表明,微生物菌群特點(diǎn)可能與所有類型癌癥組織的分期無關(guān)。

為了評(píng)估該模型在數(shù)據(jù)集上的通用性,本研究隨機(jī)將原始TCGA微生物數(shù)據(jù)分成兩批,在每批上獨(dú)立重復(fù)所有過程,在另一半數(shù)據(jù)上測試每個(gè)獨(dú)立訓(xùn)練的模型,發(fā)現(xiàn)性能非常相似(擴(kuò)展數(shù)據(jù)圖3A)。當(dāng)檢驗(yàn)單一數(shù)據(jù)類型(WGS或RNA-SEQ)時(shí),或檢驗(yàn)測序中心數(shù)據(jù),或僅使用基因組比對(duì)過濾的Kraken數(shù)據(jù)時(shí),微生物都表現(xiàn)出明顯的特征性差異。

為了進(jìn)一步驗(yàn)證,本研究應(yīng)用了一種基于比對(duì)分析的微生物分類分析方法SHOGUN,使用了一個(gè)基于系統(tǒng)發(fā)育的、僅針對(duì)細(xì)菌的簡化數(shù)據(jù)庫,包含13,517個(gè)TCGA樣本(WGS,n = 3,434;RNAseq,n=10,083),覆蓋了基于Kraken分析中的每一種癌癥類型(n = 32)、樣本類型(n = 7)、測序平臺(tái)(n = 6)和測序中心(n = 8)。盡管使用了較小的、不同的底層數(shù)據(jù)庫,SHOGUN生成的數(shù)據(jù)同樣存在Kraken數(shù)據(jù)中存在的批次效應(yīng)。本研究將這些數(shù)據(jù)和相應(yīng)的Kraken數(shù)據(jù)子集分別輸入到標(biāo)準(zhǔn)化和機(jī)器學(xué)習(xí)分析模型中,并發(fā)現(xiàn)數(shù)據(jù)集之間在判別性能方面沒有重大差異。因此,這些結(jié)果意味著每種癌癥類型都對(duì)應(yīng)著獨(dú)特的微生物群落,僅基于微生物組來區(qū)分癌癥的標(biāo)準(zhǔn)化和分類模型可以得到更廣泛的應(yīng)用

圖2|TCGA癌癥微生物數(shù)據(jù)集中病毒和細(xì)菌片段的生態(tài)學(xué)驗(yàn)證

Fig. 2 | Ecological validation of viral and bacterial reads within the TCGA
cancer microbiome data set
.

a、使用Source Tracker2在HMP2數(shù)據(jù)集上訓(xùn)練,對(duì)COAD患者(n = 70)的組織樣本中微生物來源進(jìn)行分析。b,與梭桿菌屬相關(guān)的常見胃腸道(gastrointestinal,GI)癌。BDN,血源性正常;STN,實(shí)體組織正常;PT,原發(fā)性腫瘤。c、腸胃癌組(n = 8:COAD、READ、CHOL、LIHC、PAAD、hNSC、ESCA、STAD)和非胃癌組(n = 24)梭桿菌豐度的差異。d,e,CESC(d)或HNSC(e)HPV感染患者的標(biāo)準(zhǔn)化與臨床表現(xiàn)。原位雜交(ISH, in situ hybridization);免疫組化(IHC, immunohistochemistry)。f,LIHC患者的標(biāo)準(zhǔn)化正肝病毒豐度,已判定為臨床危險(xiǎn)因素包括:HepB,既往乙肝感染;EtOH,酗酒;HepC,既往丙型肝炎感染。g,STAD整合分子亞型的標(biāo)準(zhǔn)化EBV豐度:CIN,染色體不穩(wěn)定;GS,基因組穩(wěn)定;MSI,微衛(wèi)星不穩(wěn)定;EBV,EBV感染樣本。在所有小組中,正常血液樣本和/或正常組織數(shù)據(jù)作為陰性對(duì)照;使用雙側(cè)Mann-Whitney U檢驗(yàn),當(dāng)進(jìn)行兩次以上的比較并進(jìn)行多次檢驗(yàn)校正;框圖顯示中位數(shù)(直線)、25%和75%以及1.5倍的四分位數(shù)范圍(IQR)。藍(lán)色數(shù)字表示樣本量。

微生物組成的生物學(xué)相關(guān)性

Biological relevance of microorganism profiles

考慮到微生物特征的巨大差別,本研究使用生態(tài)學(xué)預(yù)測和/或臨床測試的結(jié)果來分析它們的生物學(xué)相關(guān)性。為了評(píng)估癌癥相關(guān)微生物是否是共生群落的一部分,本研究訓(xùn)練了一種基于貝葉斯的微生物溯源分析法(Bayesian microbial-source tracking algorithm),該方法基于人類微生物組2(HMP2)項(xiàng)目中8個(gè)身體部位的217個(gè)樣本的數(shù)據(jù),這些樣本已經(jīng)通過我們的微生物檢測和標(biāo)準(zhǔn)化分析進(jìn)行處理,以估計(jì)其對(duì)70個(gè)正常組織樣本和122個(gè)皮膚黑色素瘤(skin cutaneous melanoma,SKCM)原發(fā)性腫瘤的影響。目前已知,糞便是COAD微生物組成的主要影響因素(圖2a),但與SKCM微生物組成相關(guān)性不大,這表明菌群的來源主要為局部相鄰部位。

梭桿菌屬(Fusobacterium spp.)在胃腸道腫瘤的發(fā)生和發(fā)展中起重要作用。與正常組織樣本,尤其是正常血源性樣本(圖2b)相比,原發(fā)腫瘤中梭桿菌較多。泛癌分析還顯示,在原發(fā)腫瘤組織和鄰近正常組織樣本(圖2C)中,將所有胃腸道(GI)癌(n = 8)與非GI癌(n = 24)進(jìn)行比較時(shí),梭桿菌豐富度都是較高的(圖2c)。與以前對(duì)TCGA中STAD的研究類似,本研究發(fā)現(xiàn)原發(fā)腫瘤和鄰近實(shí)體組織正常標(biāo)本之間的幽門螺桿菌感染沒有差異。

然后,本研究證實(shí)了TCGA中存在臨床研究發(fā)現(xiàn)的病毒感染,并將我們的微生物檢測分析與使用兩種不同的生物信息方法進(jìn)行TCGA病毒分析的研究進(jìn)行了比較:(i)從頭組裝宏基因組方法和(ii)基于讀長的方法(PathSeq算法)。在CESC和頭頸部鱗狀細(xì)胞癌(HNSC)樣本中,經(jīng)臨床檢測為HPV感染“陽性”或“陰性”的個(gè)體的原發(fā)腫瘤中的甲乳頭狀瘤病毒屬的豐度不同(圖2d,e)。以來自CESC患者的正常血樣作為陰性對(duì)照,在比較所有其他類型的癌癥類型和樣本類型時(shí),沒有統(tǒng)計(jì)學(xué)上的差異,僅在有些癌癥類型中甲乳頭狀瘤病毒的豐度是過高的。與有飲酒和丙型肝炎病史的肝細(xì)胞癌患者相比,有乙型肝炎病史的患者在原發(fā)性腫瘤和鄰近的實(shí)體組織正常標(biāo)本中均有某種程度乙型肝炎病毒屬(OrthoHepadnavirus)的升高(圖2f);將正常的血液樣本作為陰性對(duì)照,則無統(tǒng)計(jì)學(xué)差異。同樣與以前的報(bào)告一致,與其他STAD分子亞型的患者相比,EB病毒屬(淋巴病毒)在EBV感染的原發(fā)腫瘤中選擇性升高(圖2g)。正常組織樣本和血源性正常樣本作為陰性對(duì)照,兩者之間差異無統(tǒng)計(jì)學(xué)意義。

這些數(shù)據(jù)與分類模型在一種癌癥與其他類型癌癥區(qū)分的關(guān)鍵特征是一致的。也就是說,癌癥與“致病菌”或“共生菌”被初步證實(shí)在生態(tài)學(xué)上是相關(guān)的;例如,甲型乳頭狀瘤病毒屬是識(shí)別CESC腫瘤的最重要特征;桿狀桿菌屬對(duì)于COAD腫瘤的識(shí)別是特異性的;對(duì)于LIHC腫瘤,直肝病毒屬是第二重要的特征性細(xì)菌(僅次于毒性肝微囊藻)。本研究提供原始的和標(biāo)準(zhǔn)化的微生物豐度數(shù)據(jù)集供大家重復(fù)使用,并可能有機(jī)會(huì)將這些數(shù)據(jù)與宿主其他數(shù)據(jù)相結(jié)合,以產(chǎn)生其它的假設(shè)??偠灾?#xff0c;這些發(fā)現(xiàn)為我們的病毒和細(xì)菌數(shù)據(jù)的生物信息學(xué)和標(biāo)準(zhǔn)化方法提供了生態(tài)學(xué)驗(yàn)證,同時(shí)將結(jié)果擴(kuò)展到更多的樣本和微生物。

質(zhì)量評(píng)估與數(shù)據(jù)清洗

Measuring and mitigating contamination

為了更好地表征可能與癌癥相關(guān)的微生物,進(jìn)一步進(jìn)行了質(zhì)量評(píng)估和數(shù)據(jù)清洗。以前的工作基于不同類型癌癥中常見的低豐度讀長,在TCGA中僅識(shí)別出6種污染菌(表皮葡萄球菌、痤瘡丙酸桿菌、拉爾斯特氏菌、分枝桿菌、假單胞菌和不動(dòng)桿菌),但最近的研究表明,外部污染物的檢出頻率均與樣本分析物濃度成反比,可以使用統(tǒng)計(jì)框架進(jìn)行檢測。

本研究使用在TCGA樣品處理過程中計(jì)算的DNA和RNA濃度(n = 17,625)和讀長片段(n = 1,993)來識(shí)別可能的污染物,并刪除了在“陰性空白”試劑(n = 94 個(gè)屬;見方法)中發(fā)現(xiàn)的屬。附圖6A概述了從外科切除到生物信息處理所采取的方法;本研究還將五種類型的污染物添加到原始數(shù)據(jù)集中,通過去除污染物、監(jiān)督標(biāo)準(zhǔn)化和機(jī)器學(xué)習(xí)進(jìn)行跟蹤??紤]到技術(shù)差異的存在(圖1c-e),本研究通過測序中心(n = 8)分批處理樣品,并刪除了在任何中心發(fā)現(xiàn)的污染細(xì)菌。這鑒定了283種可能的污染物,包括19.1%(n = 18個(gè)屬)的“黑名單”。在合并這兩份名單(n = 377屬)后,手動(dòng)審查了文獻(xiàn),以重新納入致病屬或混合證據(jù)屬(既是致病菌又有常見污染物,例如分枝桿菌)。這導(dǎo)致了兩個(gè)數(shù)據(jù)集,一個(gè)刪除了可能的污染物,另一個(gè)刪除了所有假定的污染物。我們還創(chuàng)建了第三個(gè)“最嚴(yán)格的過濾”數(shù)據(jù)集,該數(shù)據(jù)集使用更嚴(yán)格的過濾模式丟棄了大約92%的總讀長。最后,除了前面提到的黑名單(總共497個(gè)屬)外,我們將樣本分組到每個(gè)中心的單個(gè)測序板中,并刪除了任何一個(gè)“板中心(plate–centre)”批次(n = 351)中確定的所有假定污染物。去除污染物似乎對(duì)研究中的樣本或癌癥的類型沒有影響。

本研究強(qiáng)調(diào),這些通過數(shù)據(jù)去除污染的方法不能替代對(duì)癌癥樣本操作過程中的嚴(yán)格把控,包括無菌處理、使用無菌認(rèn)證的試劑、從頭到尾處理的試劑的陰性空白,以及多樣本混合作為“陽性”對(duì)照。這里描述的去污操作是最先進(jìn)的分析技術(shù),但不是用來檢測大量的污染物或交叉污染物的。在許多中心和多年收集的癌癥類型之間和同一癌癥類型不同分級(jí)之間不應(yīng)該對(duì)交叉污染物產(chǎn)生統(tǒng)一的偏差,如果不加以控制,可能會(huì)限制生物學(xué)結(jié)論,特別是在小型研究中。

嚴(yán)格去除污染的另一個(gè)風(fēng)險(xiǎn)是,反映共生的、特定于組織的微生物群落和伴隨的預(yù)測癌癥的微生物圖譜的真實(shí)信號(hào)可能會(huì)被丟棄。為了評(píng)估這一問題,我們重新計(jì)算了COAD正常組織樣本(n = 70)中微生物來自身體各部位的百分比,發(fā)現(xiàn)連續(xù)嚴(yán)格的去污染可以在伴生組織變得無法識(shí)別之前提高它們的識(shí)別情況。

本研究重新計(jì)算了圖1f-h中所示的所有ML模型,并比較了它們?cè)诿糠N去污方法之前和之后的性能。大多數(shù)模型不依賴于添加的假污染物,盡管淋巴腫瘤彌漫性大B細(xì)胞淋巴瘤(DLBC)和間皮瘤(MESO)模型似乎不可靠。正如預(yù)期的那樣,組織類型信息豐富的比較(例如,COAD與所有其他癌癥類型的比較)在嚴(yán)格的去污染情況下通常表現(xiàn)得不那么好,但組織內(nèi)的比較(例如,腫瘤與正常)通常表現(xiàn)得同樣好或更好。這些結(jié)果表明,在某些比較中,嚴(yán)格的過濾可能是可取的,但通用的去污染方法可能會(huì)排除含有生物信息的結(jié)果。

圖3|使用血液中的mbDNA進(jìn)行癌癥區(qū)分的分類器性能,以及作為癌癥“液體”活檢的補(bǔ)充診斷方法

Fig.3 | Classifier performance for cancer discrimination using mbDNA in blood and as a complementary diagnostic approach for cancer ‘liquid’ biopsies.

a、模型性能熱圖類似于圖1f-h,使用血液mbDNA和右側(cè)帶有TCGA研究ID的血液mbDNA來預(yù)測一種癌癥相對(duì)于所有其他癌癥的類型;每個(gè)ML少數(shù)類別分組至少需要20個(gè)樣本才能進(jìn)行分析。b,使用包含癌癥Ⅰa–IIc期的血液mbDNA預(yù)測一種癌癥類型與其他癌癥類型的ML模型性能。c,d,根據(jù)Guardant360(c)和FoundationOne Liquid(d)ctDNA分析,使用未檢測到原發(fā)腫瘤基因組改變的患者血液mbDNA評(píng)估ML模型性能。FD,完整數(shù)據(jù);LCR,可能由測序中心去除的污染物;APCR,所有假定的污染物按測序中心去除;PCCR,去除板中心污染物;MSF,按測序中心進(jìn)行最嚴(yán)格的過濾??梢栽?http://cancermicrobiome.ucsd.edu/CancerMicrobiome_ DataBrowser 中找到用來評(píng)估每個(gè)比較的性能的樣本數(shù)量。

利用血液中微生物DNA進(jìn)行預(yù)測

Predictions using microbial DNA in blood

越來越多的證據(jù)表明,血液微生物DNA(mbDNA)可以在癌癥中提供臨床信息,包括那些以血液屏障或淋巴破壞為特征的癌癥(例如,COAD),但尚不清楚這一點(diǎn)的適用范圍有多廣。使用來自TCGA血液樣本的WGS數(shù)據(jù),將ML策略應(yīng)用于全部數(shù)據(jù)集和四個(gè)清洗過的數(shù)據(jù)集,發(fā)現(xiàn)血液傳播的mbDNA可以區(qū)分多種類型的癌癥(圖3a),無論用于分類的微生物分類算法和數(shù)據(jù)庫如何,或者當(dāng)僅使用基因組比對(duì)過濾的Kraken數(shù)據(jù)時(shí)?;仡櫺苑治鲲@示,很少有模型包含用于預(yù)測的添加的假污染物;而當(dāng)包含這些假污染物(CESC,腎乳頭狀細(xì)胞癌(KRIP),LIHC)時(shí),模型可能不那么可信。

在這些發(fā)現(xiàn)的刺激下,本研究試圖將我們的ML模型與現(xiàn)有的ctDNA分析進(jìn)行基準(zhǔn)比較,重點(diǎn)放在ctDNA分析失敗的情況下:Ia-IIc期癌癥和沒有可檢測到基因組改變的腫瘤。在去除了所有患有III或IV期癌癥的患者的正常血液樣本后,我們建立了新的ML模型,發(fā)現(xiàn)它們能夠使用血液mbDNA很好地區(qū)分癌癥類型(圖3b)。我們進(jìn)一步使用Guardant360和FoundationOne液體分析中的基因列表來篩選出具有一個(gè)或多個(gè)靶向修飾的TCGA患者(約70%),發(fā)現(xiàn)相同的ML方法對(duì)大多數(shù)剩余的癌癥類型顯示出良好的區(qū)分性(圖3c,d)。

這些分析受到以下事實(shí)的限制:ctDNA分析使用的是血漿而不是全血,而且mbDNA在血室中的分布尚不清楚。由于無法獲得RNA數(shù)據(jù),因此無法區(qū)分mbDNA來自活的還是死亡的微生物,或者mbDNA是否是無細(xì)胞的或宿主白細(xì)胞中的mbDNA,因?yàn)門CGA標(biāo)準(zhǔn)操作程序(SOP)允許提取全血或棕黃色涂層。如果不檢查原始樣本和配對(duì)的腸道上皮細(xì)胞,也不可能知道血液中mbDNA的來源,因?yàn)?strong>某些類型的癌癥可能會(huì)以意想不到的方式“泄漏”mbDNA(例如,白血病中的腸道細(xì)菌易位)??赡軙?huì)有一個(gè)理想的去污染連續(xù)體,因?yàn)槿ノ廴緦?duì)模型性能的影響在不同類型的癌癥中是不同的,但我們的篩選受到以下限制:(i)無法獲得原始樣本,iii)屬級(jí)分類分辨率,以及(iii)不知道哪些非TCGA樣本同時(shí)被處理。

確定血液中的微生物特征

Validating microbial signatures in blood

為了展示這些結(jié)果的應(yīng)用效果,同時(shí)以血漿的ctDNA分析為基準(zhǔn),在驗(yàn)證研究中評(píng)估了使用血漿來源的無細(xì)胞mbDNA特征來區(qū)分健康個(gè)體和多種類型的癌癥,同時(shí)對(duì)低生物量研究采用金標(biāo)準(zhǔn)微生物學(xué)對(duì)照。雖然血漿只是全血的一部分,這限制了其直接可比性,但它在穩(wěn)定性(例如,冰凍)、生物儲(chǔ)存庫的可用性和生物學(xué)解釋(即非生物材料)方面具有重大優(yōu)勢。本隊(duì)列包括69名沒有癌癥和艾滋病病毒的個(gè)體和100名患有三種高級(jí)別(III-IV期)癌癥之一的患者:前列腺癌(n = 59;PC)、肺癌(n = 25;LC)和黑色素瘤(n = 16;SKCM)(圖4a)。在沒有以前的文獻(xiàn)來估計(jì)效應(yīng)大小的情況下,我們?cè)贐road研究所和HMS對(duì)匹配類型的癌癥的TCGA血液樣本進(jìn)行了獨(dú)立的模擬,以估計(jì)最小樣本量。從這些具有廣泛的對(duì)照的血漿樣本中提取無細(xì)胞DNA,并在一次深度測序運(yùn)行中,由特定的一組用戶使用單一文庫制備方法在一次深度測序運(yùn)行中處理整個(gè)宏基因組測序數(shù)據(jù)。首先去除了人類基因,按Kraken方法對(duì)剩余片段進(jìn)行分類,使用DNA濃度和陰性空白進(jìn)行嚴(yán)格的去污染,以及Voom-SNM。人口學(xué)比較和排列分析顯示應(yīng)當(dāng)對(duì)年齡和性別進(jìn)行標(biāo)準(zhǔn)化,直接年齡回歸表現(xiàn)顯示的平均絕對(duì)誤差類似于腸道微生物?!白耘e”與TCGA分析中使用的ML方案相同,顯示出健康對(duì)照個(gè)體和癌癥分組患者之間明顯的區(qū)別(圖4b)。由于樣本量很小,本研究對(duì)標(biāo)準(zhǔn)化的數(shù)據(jù)進(jìn)行了留一法(leave-one-out,LOO)迭代ML,發(fā)現(xiàn)除了最小的SKCM隊(duì)列外,在健康樣本和癌癥類型之間的成對(duì)和多類比較中具有很高的區(qū)分性性能(圖4c-k)。因此,本研究迭代地對(duì)PC組和LC組進(jìn)行二次抽樣以匹配SKCM隊(duì)列大小,并對(duì)二次抽樣的健康對(duì)照組對(duì)每種類型的癌癥進(jìn)行成對(duì)的LOL判別。PC和LC隊(duì)列在與SKCM相同的隊(duì)列大小下仍然是具有區(qū)分性的;100次迭代),顯示出SKCM性能的普遍缺陷。這一缺陷可能有生物學(xué)基礎(chǔ),因?yàn)镾KCM在TCGA血液鑒別中的五個(gè)測試數(shù)據(jù)集中的四個(gè)中是表現(xiàn)第二差的(圖3a),盡管這一點(diǎn)值得進(jìn)一步證實(shí)。為了確保Kraken的微生物指定是有效的,本研究使用SHOGUN及其單獨(dú)數(shù)據(jù)庫的細(xì)菌指定重復(fù)了所有生物信息學(xué)、標(biāo)準(zhǔn)化和ML步驟,這顯示出高度一致的性能。隨著微生物數(shù)據(jù)庫的改進(jìn),我們預(yù)計(jì)cfDNA特征的分類效能將會(huì)改進(jìn)。檢測到的血漿微生物豐度可以在 http://cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser 上進(jìn)行搜索。

圖4|使用血漿來源的無細(xì)胞mbDNA構(gòu)建的用來區(qū)分癌癥類型和健康對(duì)照的ML模型的預(yù)測性能

Fig.4|Performance of ML models to discriminate between types of cancer and healthy controls using plasma-derived, cell-free mbDNA.

a、驗(yàn)證研究中分析的樣本的人口統(tǒng)計(jì)信息。所有患者均患有多種亞型的高級(jí)別(III–IV期)癌癥,并被分為PC,LC和SKCM組。b,用于區(qū)分分組癌癥樣品(n = 100)和非癌癥健康對(duì)照(n = 69)的自舉性能估計(jì)。使用不同的訓(xùn)練-測試分割(70%–30%)進(jìn)行500次迭代的ROC(頂部)和PR(底部)曲線數(shù)據(jù)的柵格化密度圖。c–h,兩類之間的LOO迭代ML性能:PC與對(duì)照組(c),LC與對(duì)照組(d),SKCM與對(duì)照組(e),PC與LC(f),LC與SKCM(g),以及PC與SKCM(h)。i–k,多類(n = 3或4),LOO迭代ML性能,以區(qū)分癌癥類型(i)以及混合癌癥患者和健康對(duì)照個(gè)體(j,k)??傮wLOO ML性能計(jì)算為將一個(gè)與所有其他性能進(jìn)行比較時(shí)的性能平均值。

討論 Discussion

總體而言,本研究的數(shù)據(jù)表明,不同類型的癌癥和特定的微生物菌群之間存在廣泛的關(guān)聯(lián)。這些微生物圖譜能夠區(qū)分了大多數(shù)類型的癌癥,包括在低級(jí)別腫瘤階段使用基于血液的mbDNA,以及在商業(yè)ctDNA檢測中沒有檢測到任何可檢測到的基因組變化的患者。即使經(jīng)過廣泛的內(nèi)部驗(yàn)證檢查和數(shù)據(jù)清洗(有時(shí)會(huì)丟棄總數(shù)據(jù)的90%以上),這些結(jié)果通常仍然有效。在健康對(duì)照者和多種癌癥患者中,僅使用血漿中無細(xì)胞的mbDNA,同時(shí)采用比TCGA更廣泛的內(nèi)部和外部污染控制,微生物分類模型具有很高的區(qū)分性,這表明使用廣泛可用的樣本進(jìn)行臨床相關(guān)的回顧性測試是可行的和可推廣的。需要更多的工作來確定觀察到的核酸是否來自腫瘤微環(huán)境和血液中的活微生物、宿主細(xì)胞或裂解細(xì)菌。值得注意的是,許多技術(shù)和生物學(xué)因素限制了對(duì)低生物量微生物的回顧性癌癥測序數(shù)據(jù)的分析,這一領(lǐng)域的進(jìn)展將需要癌癥生物學(xué)家和微生物學(xué)家之間的合作。盡管如此,本研究的結(jié)果表明,一類新的基于微生物組的癌癥診斷工具可能會(huì)為患者提供實(shí)質(zhì)性的未來價(jià)值

數(shù)據(jù)獲取

ftp://ftp.microbio.me/pub/cancer_microbiome_analysis/

https://qiita.ucsd.edu/

代碼獲取 Code availability

https://github.com/biocore/tcga

參考文獻(xiàn)

Gregory D. Poore, Evguenia Kopylova, Qiyun Zhu, Carolina Carpenter, Serena Fraraccio, Stephen Wandro, Tomasz Kosciolek, Stefan Janssen, Jessica Metcalf, Se Jin Song, Jad Kanbar, Sandrine Miller-Montgomery, Robert Heaton, Rana McKay, Sandip Pravin Patel, Austin D. Swafford & Rob Knight. (2020). Microbiome analyses of blood and tissues suggest cancer diagnostic approach. Nature 579, 567-574, doi: https://doi.org/10.1038/s41586-020-2095-1

責(zé)編:盧洪葉 北京大學(xué)

審核:劉永鑫 中科院

猜你喜歡

10000+:菌群分析?寶寶與貓狗?梅毒狂想曲 提DNA發(fā)Nature?Cell???腸道指揮大腦

系列教程:微生物組入門 Biostar 微生物組 ?宏基因組

專業(yè)技能:學(xué)術(shù)圖表?高分文章?生信寶典 不可或缺的人

一文讀懂:宏基因組 寄生蟲益處 進(jìn)化樹

必備技能:提問 搜索 ?Endnote

文獻(xiàn)閱讀 熱心腸 SemanticScholar Geenmedical

擴(kuò)增子分析:圖表解讀 分析流程 統(tǒng)計(jì)繪圖

16S功能預(yù)測 ? PICRUSt ?FAPROTAX ?Bugbase Tax4Fun

在線工具:16S預(yù)測培養(yǎng)基 生信繪圖

科研經(jīng)驗(yàn):云筆記 ?云協(xié)作 公眾號(hào)

編程模板:?Shell ?R Perl

生物科普:??腸道細(xì)菌?人體上的生命?生命大躍進(jìn) ?細(xì)胞暗戰(zhàn) 人體奧秘 ?

寫在后面

為鼓勵(lì)讀者交流、快速解決科研困難,我們建立了“宏基因組”專業(yè)討論群,目前己有國內(nèi)外5000+ 一線科研人員加入。參與討論,獲得專業(yè)解答,歡迎分享此文至朋友圈,并掃碼加主編好友帶你入群,務(wù)必備注“姓名-單位-研究方向-職稱/年級(jí)”。PI請(qǐng)明示身份,另有海內(nèi)外微生物相關(guān)PI群供大佬合作交流。技術(shù)問題尋求幫助,首先閱讀《如何優(yōu)雅的提問》學(xué)習(xí)解決問題思路,仍未解決群內(nèi)討論,問題不私聊,幫助同行。

學(xué)習(xí)16S擴(kuò)增子、宏基因組科研思路和分析實(shí)戰(zhàn),關(guān)注“宏基因組”

點(diǎn)擊閱讀原文,跳轉(zhuǎn)最新文章目錄閱讀

總結(jié)

以上是生活随笔為你收集整理的Nature:Rob Knight团队发现血液和组织微生物组可诊断癌症的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。