临床外显子组测序分析中的那些坑(上)
大規(guī)模并行測(cè)序技術(shù)或下一代測(cè)序已成為基因診斷和研究的標(biāo)準(zhǔn)技術(shù),尤其是外顯子組和基因組測(cè)序現(xiàn)在已經(jīng)在世界范圍內(nèi)廣泛應(yīng)用于患者的分子診斷。在過(guò)去幾年中,許多實(shí)驗(yàn)室都在努力應(yīng)對(duì)基于全新技術(shù)建立基因檢測(cè)工作流程的挑戰(zhàn)。測(cè)序技術(shù)中持續(xù)引入新的儀器、化學(xué)和分析方法加劇了這些挑戰(zhàn)。
在過(guò)去十年中,新的測(cè)序技術(shù)已經(jīng)上市,而其他技術(shù)已經(jīng)消失,并且所有這些技術(shù)都經(jīng)歷了快速的變化和升級(jí)。外顯子組捕獲試劑盒、配套設(shè)備和耗材也是如此。在這個(gè)不斷變化的領(lǐng)域,實(shí)驗(yàn)室一直致力于生成高質(zhì)量的測(cè)序數(shù)據(jù)。
各種研究報(bào)告了測(cè)序數(shù)據(jù)中的偏差如何導(dǎo)致外顯子組和基因組測(cè)序的敏感性降低或假陽(yáng)性變異。例如,對(duì)于NGS而言,高測(cè)序錯(cuò)誤率和PCR重復(fù)將導(dǎo)致潛在的假陽(yáng)性calls,而不均勻的序列覆蓋或缺乏覆蓋可能會(huì)導(dǎo)致靈敏度降低。其他問(wèn)題,如strand偏倚和插入大小分布也可能對(duì)測(cè)序結(jié)果產(chǎn)生不利影響。NGS技術(shù)比傳統(tǒng)的基因檢測(cè)方法更加數(shù)據(jù)密集,需要信息技術(shù)(IT)和生物信息學(xué)方面的專(zhuān)業(yè)知識(shí),而這在許多實(shí)驗(yàn)室最初是稀缺的。生物信息學(xué)已經(jīng)解決了為測(cè)序數(shù)據(jù)建立嚴(yán)格質(zhì)量控制的困難,但也解決了從測(cè)序數(shù)據(jù)中可靠識(shí)別變異的挑戰(zhàn)。例如,檢測(cè)插入和缺失、識(shí)別短片段擴(kuò)增重復(fù)或低覆蓋區(qū)域的變異或區(qū)分單核苷酸變異(SNV)與測(cè)序錯(cuò)誤相對(duì)困難。
此外,從外顯子組數(shù)據(jù)中檢測(cè)拷貝數(shù)變異(CNV)已成為一種標(biāo)準(zhǔn)程序,并帶來(lái)了自身特殊的挑戰(zhàn)。同樣,與測(cè)序儀器一樣,生物信息學(xué)需要處理來(lái)自軟件工具、基因Panel和其他注釋資源的持續(xù)更新,以確保分子遺傳學(xué)家擁有用于解釋最新數(shù)據(jù)的最新信息。這反過(guò)來(lái)要求實(shí)驗(yàn)室實(shí)施自動(dòng)測(cè)試其分析的策略以及重新分析現(xiàn)有數(shù)據(jù)的系統(tǒng)方法。
在新的測(cè)序可能性以及許多疾病的遺傳和表型變異的推動(dòng)下,臨床基因檢測(cè)在過(guò)去十年中發(fā)生了巨大的變化。根據(jù)臨床表型,只有一個(gè)或幾個(gè)基因會(huì)被測(cè)序;從靶向基因測(cè)試來(lái)看,現(xiàn)在通常涉及對(duì)大量疾病基因的分析。與單基因分析相比,外顯子組或基因組測(cè)序中的大量變異的解釋明顯不同。這不僅需要對(duì)該技術(shù)有深入的了解,以便評(píng)估數(shù)據(jù)質(zhì)量和已識(shí)別的變異,還需要新的變異解釋方法。
NGS變異的初始報(bào)告有時(shí)過(guò)于嚴(yán)格,從而忽略了與患者表型不完全匹配的變異,或過(guò)于寬松,導(dǎo)致許多意義不確定的變異(VUS)。隨著時(shí)間的推移,測(cè)序數(shù)據(jù)的質(zhì)量有了很大的提高,并且開(kāi)發(fā)具有不同變異頻率的大型公共可用數(shù)據(jù)庫(kù),如GnomAD數(shù)據(jù)庫(kù),極大地幫助開(kāi)發(fā)了更高效的變異篩選選項(xiàng)。此外,在過(guò)去的幾年中,已經(jīng)開(kāi)發(fā)出各種建議和質(zhì)量評(píng)估方案指導(dǎo)NGS變異的解釋、分類(lèi)和報(bào)告。
現(xiàn)在有一些關(guān)于NGS測(cè)試的指南可以幫助NGS測(cè)試設(shè)計(jì)、優(yōu)化、驗(yàn)證、質(zhì)量管理和生物信息學(xué)等方面。盡管如此,仍然存在許多挑戰(zhàn),錯(cuò)誤肯定會(huì)發(fā)生,即使在質(zhì)量至關(guān)重要的受監(jiān)管臨床基因檢測(cè)實(shí)驗(yàn)室也是如此。這里我們展示了我們實(shí)驗(yàn)室在十年臨床外顯子組測(cè)序過(guò)程中犯下的一些錯(cuò)誤的例子,以及我們從這些錯(cuò)誤中吸取的教訓(xùn)(補(bǔ)充表S1)。雖然濕實(shí)驗(yàn)室有其特殊的挑戰(zhàn),但在這里,我們主要關(guān)注與數(shù)據(jù)分析和變異解釋相關(guān)的問(wèn)題。我們希望通過(guò)分享這些例子,其他實(shí)驗(yàn)室可以避免犯同樣的錯(cuò)誤。
數(shù)據(jù)分析?
對(duì)于許多診斷實(shí)驗(yàn)室來(lái)說(shuō),數(shù)據(jù)管理和測(cè)序數(shù)據(jù)分析流程的開(kāi)發(fā)已經(jīng)變得非常重要。構(gòu)建一個(gè)完整、高效和穩(wěn)健的NGS分析流程是一項(xiàng)復(fù)雜的任務(wù),包括多個(gè)微妙的步驟,包括從NGS讀取的比對(duì)到不同類(lèi)型遺傳變異的調(diào)用和注釋,如SNV、小插入和缺失、CNV和短串聯(lián)重復(fù)序列(STR)。由于需要執(zhí)行許多不同的處理步驟,并且數(shù)據(jù)量很大,因此相對(duì)容易犯一個(gè)小錯(cuò)誤,對(duì)最終結(jié)果產(chǎn)生較大但不明顯的影響。在這里,我們展示了自己在數(shù)據(jù)分析過(guò)程中犯下的五個(gè)錯(cuò)誤的例子,這些錯(cuò)誤到目前為止還沒(méi)有在文獻(xiàn)中得到充分強(qiáng)調(diào)。
1.???? 序列質(zhì)量
“垃圾輸入,垃圾輸出”是計(jì)算機(jī)科學(xué)中的一句名言。它抓住了一個(gè)概念,即有缺陷的輸入數(shù)據(jù)會(huì)產(chǎn)生有缺陷的輸出或“垃圾”。這同樣適用于測(cè)序數(shù)據(jù)。我們的實(shí)驗(yàn)室在測(cè)序結(jié)果方面遇到了許多問(wèn)題,這些問(wèn)題不是由于數(shù)據(jù)處理中的錯(cuò)誤,而是由于初始數(shù)據(jù)生成本身存在問(wèn)題。確定下游問(wèn)題的根本原因可能是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)闇y(cè)序數(shù)據(jù)中的細(xì)微質(zhì)量問(wèn)題可能會(huì)對(duì)后續(xù)突變檢測(cè)產(chǎn)生很大影響。一個(gè)相對(duì)常見(jiàn)的問(wèn)題是數(shù)據(jù)中有許多虛假的變異,這種情況有時(shí)是由于意外的高測(cè)序錯(cuò)誤率、樣本污染,或由于adapter序列的不正確修剪(補(bǔ)充圖S1)。
大多數(shù)質(zhì)量問(wèn)題可以通過(guò)檢查原始測(cè)序數(shù)據(jù)或變異的質(zhì)量分?jǐn)?shù)較低,并且偏離雜合子突變豐度50%來(lái)識(shí)別。相反,在大多數(shù)情況下,變異的數(shù)量減少是由于序列覆蓋率低。然而,靈敏度降低可能還有其他原因。在兩批外顯子組測(cè)序樣本中,我們注意到變異的數(shù)量較少,只是因?yàn)槲覀儗?duì)幾批樣本進(jìn)行了趨勢(shì)分析。最初,我們預(yù)計(jì)這是由于樣本的序列覆蓋率較低(補(bǔ)充圖S2),然而,這些樣本的序列覆蓋率與其他樣本沒(méi)有區(qū)別,最終我們發(fā)現(xiàn)這個(gè)問(wèn)題是由于duplication reads的比例增加了10-20%。由于duplication reads可能是由于PCR擴(kuò)增并可能引入假陽(yáng)性變異。大多數(shù)變異的分析軟件不會(huì)考慮它們的變異調(diào)用。因此,許多區(qū)域的有效覆蓋率比這兩個(gè)批次的有效覆蓋率低10-20%(補(bǔ)充圖S2)。許多質(zhì)量問(wèn)題可以通過(guò)使用Qualimap等工具輕松識(shí)別,這些工具可以計(jì)算測(cè)序?qū)嶒?yàn)的質(zhì)量統(tǒng)計(jì)數(shù)據(jù),如覆蓋率統(tǒng)計(jì)數(shù)據(jù)、測(cè)序錯(cuò)誤率和重復(fù)讀取的百分比。
因此,我們強(qiáng)烈建議在生物信息流程的所有步驟中嵌入廣泛的質(zhì)量控制,并遵循質(zhì)量參數(shù)的趨勢(shì),如重復(fù)讀取的百分比、覆蓋率分布、變異總數(shù)以及在gnomAD中未發(fā)現(xiàn)的罕見(jiàn)變異的百分比。應(yīng)密切調(diào)查與預(yù)期值的偏差。在開(kāi)發(fā)和測(cè)試期間確定質(zhì)量閾值將有助于以后識(shí)別質(zhì)量問(wèn)題。當(dāng)實(shí)驗(yàn)室協(xié)議發(fā)生變化時(shí),例如隨著新測(cè)序儀器的引入,這些閾值可能需要更新。對(duì)測(cè)序數(shù)據(jù)進(jìn)行全面的質(zhì)量控制分析可以防止數(shù)據(jù)解釋的許多下游問(wèn)題。
.
2. 序列比對(duì):alternate contigs?
NGS數(shù)據(jù)最主要的處理步驟是將讀取數(shù)據(jù)與參考基因組對(duì)齊。然而,特定區(qū)域的基因組結(jié)構(gòu)在不同的個(gè)體和群體之間可能存在很大差異。為了正確地表示這些位點(diǎn),參考基因組使用alternate contigs,即基因組中特定區(qū)域的不同參考序列。這些交替重疊群包含基因組中的區(qū)域,這些區(qū)域以如此復(fù)雜的方式變化,以至于它們無(wú)法表示為單個(gè)參考序列。在我們最初的分析工作流程中,我們?cè)噲D盡可能全面,包括可能最大的參考基因組,其中包括alternate contigs。然而,默認(rèn)情況下,大多數(shù)reads都會(huì)給與參考基因組中多個(gè)區(qū)域一致的比對(duì)質(zhì)量分?jǐn)?shù)。這些比對(duì)質(zhì)量(MAPQ)等于零的讀數(shù)通常在集成基因組學(xué)查看器(IGV(Robinson等人,2011))中以空白讀數(shù)顯示(圖1A)。變異檢測(cè)算法反過(guò)來(lái)會(huì)忽略這種讀取,并且不會(huì)在讀取MAPQ分?jǐn)?shù)較低的區(qū)域識(shí)別變異。這些區(qū)域變異雖然可以通過(guò)手動(dòng)檢查看到,但不會(huì)被分析。這一錯(cuò)誤是在實(shí)驗(yàn)室專(zhuān)家的幫助下確定的,他們查看了比對(duì)后的測(cè)序數(shù)據(jù),以確定隱性基因中是否存在潛在的第二個(gè)突變(見(jiàn)VI-3)。我們發(fā)現(xiàn)通過(guò)包含alternate contigs讀取無(wú)法明確對(duì)齊的編碼基數(shù)將增加三倍。
圖1A
最近,英國(guó)生物銀行(UK Biobank)的數(shù)據(jù)也報(bào)道了同樣的問(wèn)題,在GRCh38參考基因組中引入了大量的替代性重疊群,導(dǎo)致數(shù)千種變異的缺失。有兩種方法可以避免這個(gè)問(wèn)題。簡(jiǎn)單的解決方案是在分析中簡(jiǎn)單地排除替代重疊群,這是目前我們?cè)贕RCh37外顯子組分析中所做的。在沒(méi)有交替重疊的情況下分析數(shù)據(jù),將正確對(duì)齊人類(lèi)參考基因組主要組件中的reads(圖1B)。一個(gè)更復(fù)雜的解決方案是應(yīng)用對(duì)齊算法,可以使用相應(yīng)的索引文件處理交替重疊,我們現(xiàn)在使用參考基因組的GRCh38構(gòu)建分析基因組。考慮到GRCh38極大地?cái)U(kuò)展了替代性接觸基因的種類(lèi)(以及其他改進(jìn)),行業(yè)開(kāi)始向GRCh38過(guò)渡將是有利的,以便能夠正確地檢測(cè)和分析群體特異性單倍型中的基因組變異。
3. 變異檢測(cè):捕獲目標(biāo)文件?
有許多不同的外顯子組試劑盒,它們都使用自己對(duì)“感興趣區(qū)域”的定義。從外顯子組檢測(cè)變異的最初方法是分析整個(gè)全基因組,而不考慮捕獲目標(biāo)或編碼區(qū)域。然而,這在計(jì)算上很繁重,結(jié)果數(shù)據(jù)將包含許多來(lái)自不感興趣區(qū)域中非目標(biāo)讀取的低質(zhì)量變異。因此,將分析限制在可以合理預(yù)期可靠變異的充分覆蓋范圍區(qū)域似乎是合理的。盡管最初的外顯子組試劑盒試圖精確定位編碼區(qū),但許多制造商開(kāi)始移動(dòng)捕獲探針,使其部分重疊或接近感興趣的外顯子,以?xún)?yōu)化富集效率。這背后的想法是:結(jié)合序列讀取長(zhǎng)度(通常為100-150 bp)和基因組DNA片段的富集(延伸到目標(biāo)之外但與目標(biāo)重疊),不僅可以充分覆蓋捕獲目標(biāo)本身,還可以覆蓋100-150個(gè)相鄰堿基。這確實(shí)提高了許多“困難”外顯子的捕獲效率,但使決定在哪些區(qū)域檢測(cè)變異變得更加困難。
圖1C
在我們最初實(shí)施新的外顯子捕獲設(shè)計(jì)時(shí),我們犯了一個(gè)錯(cuò)誤:只在外顯子捕獲目標(biāo)區(qū)域中檢測(cè)變異,沒(méi)有意識(shí)到任何捕獲目標(biāo)都沒(méi)有直接覆蓋一部分外顯子,因此遺漏了相關(guān)的編碼變異(圖1C)。盡管我們?cè)跍y(cè)試外顯子組試劑盒時(shí)進(jìn)行了幾次質(zhì)量檢查,但我們并沒(méi)有立即意識(shí)到我們丟失了多達(dá)5.4%(1897KB)的所有編碼區(qū)域(安捷倫SureSelect版本4)。同樣,當(dāng)通過(guò)IGV在序列比對(duì)中發(fā)現(xiàn)可見(jiàn)的變異在vcf文件中不存在時(shí),觀察到了這個(gè)錯(cuò)誤。在最近的外顯子組試劑盒中,與捕獲目標(biāo)相鄰的編碼堿基數(shù)量較少,但仍然相當(dāng)可觀(圖1D)。
大多數(shù)制造商保證在捕獲目標(biāo)附近有足夠的覆蓋100bp,但我們目前將目標(biāo)擴(kuò)展為200bp,以平衡額外的計(jì)算時(shí)間和編碼區(qū)域中的額外變異。顯然,在全基因組范圍內(nèi)分析變異將繞過(guò)這些問(wèn)題,但我們已經(jīng)判斷,額外的計(jì)算時(shí)間和低質(zhì)量變異的增加并沒(méi)有使這足夠值得。我們估計(jì),在全基因組范圍內(nèi)調(diào)用變異將使分析時(shí)間加倍,并將產(chǎn)生更多的變異,其中一個(gè)重要部分是假陽(yáng)性位點(diǎn)。在實(shí)施新的外顯子組捕獲設(shè)計(jì)時(shí),強(qiáng)烈建議事先定義臨床目標(biāo)或感興趣的區(qū)域,然后確定這些區(qū)域覆蓋的完整性。
譯者介紹
邊疆 男 2010年畢業(yè)于中山大學(xué)婦產(chǎn)科生殖內(nèi)分泌專(zhuān)業(yè),獲博士學(xué)位。專(zhuān)業(yè)方向:女性生殖力保存、環(huán)境生殖毒理學(xué)。從事婦科內(nèi)分泌疾病和女性生殖內(nèi)分泌臨床20余年
往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)
機(jī)器學(xué)習(xí)
后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的临床外显子组测序分析中的那些坑(上)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Python源码剖析[16] —— Py
- 下一篇: 期刊 | 人类遗传学领域期刊速览