单细胞转录组基本概念(一)
普通轉錄組的思路也可以應用到單細胞轉錄組。普通轉錄組相當于把一群細胞或一個器官混合到一起去提取RNA,獲得的是每個細胞中RNA表達量的平均值。單細胞是把每個細胞單獨分出來去提取RNA,然后建庫測序,獲得是是單個細胞的表達值。在每個細胞里面基因的表達具有隨機性,且存在異質性。而且這些細胞群中會存在不同類型的細胞,尤其是當我們對整個組織或者器官進行測序時,它們本身就是由不同類型的細胞組成的,而我們用普通轉錄組來測序,相當于掩蓋住了這些不同的細胞類型的差異,展示的是整個組織的平均的狀態,所以說單細胞從這個來看跟普通轉錄組就不同在是用一個細胞測,不是用一堆細胞測。
既然是做單細胞,第一步就是把單個細胞分選出來。分選的方式也比較多,物理切割,酶消化,FACS分選等。假如已經分到了一個單細胞,跟常規的轉錄組步驟上是一樣的。下一步就是把單細胞里的RNA提取出來去建庫測序。但是一個細胞里的RNA含量是比較少的,難建庫成功。這個里面“量”的概念很有意思。比如說單細胞量少,需要特殊處理。到我們做計算的,量大需要特殊處理。比如微信這個工具,看上去誰都可以做,就是一個信息發送和接收的工具,技術難度不大。但如果是做成承載8億用戶的平臺,難度就大了很多了。后面講到的單細胞聚類也是,數量一大,就得先降維再聚類。建庫之前需要做一步擴增,擴增主要有2個方式,一個是體外轉錄,另一個是常規的PCR擴增。因為單細胞的RNA量比較少,所以要擴增的話循環數就會比較多,會引入一些PCR擴增帶來的偏好性,為了解決這個問題,就有了現在的第2個技術——體外轉錄。這個技術不通過擴增,在RNA上加一個T7的啟動子,讓它一輪一輪的轉錄出新的RNA,實現線性擴增。
PCR也有對應的線性擴增的技術,當獲得了可以反轉錄成足夠量cDNA的RNA之后,就可以把它按照之前常規轉錄組的方式去建庫測序,后續的分析也是比較類似。
因為單細胞里面RNA的量少,所以說整個富集的過程中會出現一部分基因在一個細胞里能檢測到,在另外一個細胞里面檢測不到,而每個細胞里面的檢測存在一個隨機性,同時單細胞測序深度比較低,所以說分析時相比于普通轉錄組有一些是需要特別注意,但整體的分析思路是類似的。單細胞轉錄組的分析流程,主要還在在后期的聚類、發育軌跡、整合分析等。下圖是單細胞轉錄組測序技術的發展,橫軸是時間,縱軸是每一個技術所能檢測到的細胞的量的變化,基本服從指數的分布。
1992年Eberwine教授采用體內反轉和體外轉錄技術測定了單個細胞里的數個基因的表達。后續非靶向的mRNA擴增技術的發展為2009年湯富酬老師打響單細胞測序前兩槍提供了技術基礎。
湯富酬老師在國外做博后的時候,2009、2010年2篇文章拉開了單細胞轉錄組測序的序幕,現在他也是單細胞領域特別高產的研究者。當時單細胞轉錄組測序主要應用于特別難獲取的細胞,比如說胚胎發育早期,合子,二細胞,四細胞,八細胞期,這時候因為每一個階段細胞的數目都是很有限的,當時就想著能夠開發一個技術對這種含量特別少的細胞能夠提取建庫成功,然后獲得它們的表達量,從而來研究這些常規轉錄組所研究不了的生物過程,所以當時的發展是盡量提高測序的深度。
到了后來也還是2010年,也是目前在單細胞領域比較火的一個老師,郭國驥老師,他在哈佛做博后時用fluidigm的一個設備檢測了500個細胞的48個基因的單細胞的RT-qPCR結果,發現用這48個基因可以對500個細胞進行很好的細胞分型,定義每個細胞的類型。所以大家看到這篇文章開始逐漸意識到,完全可以在單細胞分析上以量取勝,就是每個細胞可以測的比較淺,但是測很多細胞,這樣對鑒定細胞類型很有幫助,所以說后續技術的大部分優化點都在于如何提高檢測通量上,而現在我們已經可以檢測幾千或者上萬的細胞。
后續就由此發展出來很多技術,比如drop-seq,indrop,10Xgenomics,這些都是基于droplets的技術。早期單細胞的分選主要靠人工,用移液管,移液槍或者顯微操作去把細胞單個單個的分出來,再放到微孔里一個一個進行反應,或者使用fluidigm的微流控設備或者操作機器人,之后就有了更自動化的設備,使得我們用更低的成本,更少的時間來檢測出來更多的細胞。
這些技術都不能保留細胞原始的空間上的位置,而In situ barcoding或者Picowells可以讓我們得知這個細胞在原始空間上誰跟誰更近,同時可以檢測出來這些細胞里面基因的表達量,提供另外一個維度的信息。
郭國驥老師另外一篇cell中的Microwell-seq可以檢測數萬個細胞,是屬于測序成本比較低的技術,后面再講它的基本應用。
原位序列條形碼標記(例如單細胞組合索引RNA測序(sci-RNA-seq)和基于分池連接的轉錄組測序(split-poolligation-based transcriptomesequencing, SPLiT-seq)
在SpatialTranscriptomics(美國10XGenomics公司)和Slide-seq方法中,采用寡核苷酸芯片(oligo-arrayed microarray slides)和布滿寡核苷酸的凝珠 (denselypacked oligo-coatedbeads) 直接從冷凍組織切片中捕獲RNA進行測序。寡核苷酸包含spatialbarcode,UMI和oligo-dT引物,可唯一識別每個轉錄本及其位置。測序reads比對回玻片坐標獲得空間基因表達信息。
已經證明,SpatialTranscriptomics可用于多種物種的組織,包括小鼠腦和人乳腺癌組織、人心臟組織和擬南芥花序組織。Slide-seq是一項最新開發的技術,已顯示可用于小鼠大腦的冷凍切片分析。這些直接的mRNA捕獲方法不需要專門的設備,具有相對簡單的分析方法,并且可能大規模應用于許多組織。
但是,有兩個重要的問題有待解決。首先,該技術只能應用于新鮮的冷凍組織。其次,分辨率受到芯片大小和寡核苷酸凝珠間距的限制;當前應用的芯片大小分別為6.5×7mm和3×3mm,限制了可以檢測的組織切片的大小。SpatialTranscriptomics的凝珠直徑為100μm,間隔為100μm,這意味著它們不夠小或不夠密,以致無法實現單細胞分辨率。Slide-seq的凝珠 (beads)小得多,直徑僅為10 μm,并且堆積致密,提供了十倍的空間分辨率,大約一半的beads可以獲得單個細胞數據。
真正想了解大腦,你還需要一個空間背景(spatial context),因為大腦細胞不像肝臟或其他器官那樣以對稱的方式組織,大腦的不同尋常之處在于它具有神經元的拓撲結構。因此,我們希望能夠觀察大腦的一部分,看看那里有哪些細胞、它們在哪里,以及它們周圍有哪些類型的細胞。
MERFISH的主要應用之一是原位識別細胞類型。不同的細胞類型有不同的基因表達譜。因此,這些基因表達譜為細胞類型鑒定提供了定量和系統的方法。由于我們可以通過MERFISH成像在完整組織中做到這一點,我們也可提供這些細胞類型的空間結構(spatial organization)。
極限稀釋加移液槍分離單細胞;顯微操作分選單細胞;流式分選帶有表面Marker的單細胞;激光切割實體組織;微流控技術;磁珠捕獲,主要用于CTC
它的一個優點是可以結合流式細胞熒光分選(FACS, fluorescent activated cell sorting)根據表面Marker分選細胞。因此特別適合分選細胞子集用于測序。它的另一個優點是可以獲得細胞形態全覽圖,提供另外一個維度的信息,可用于鑒定微孔中是否有損傷的細胞或雙份細胞,主要缺點是通量低且每個細胞所需的工作量相當大。微流型平臺,比如Fluidigm’s C1,提供了一個更加整合的系統,同時可以捕獲細胞和完成文庫構建的準備過程。比微孔型平臺通量更高,但只能捕獲10%的細胞,不適合處理稀有細胞或細胞量量很少的情況。液滴型方法是將單獨的細胞和一個包含建庫所學酶的珠粒(bead)包裹在一個納米級液滴里面。特殊地,每個珠粒(bead)包含一段獨特的條形碼序列(barcode),會加到所有來自于液滴里面這個細胞的序列上,用于區分不同細胞的轉錄本。采用光刻技術制作微孔矩陣硅片(微孔直徑28 um,深度35 um,100,000個微孔),以此為模具制作PDMS微柱模具。這兩個模具可以反復使用。最終用于富集的微孔板是通過傾到5%的瓊脂糖凝膠到PDMS微柱模具上生成的。細胞懸液加到凝膠微孔模具上,利用重力使細胞落入微孔,通常一個微孔只能容納一個細胞,一塊板子可以同時捕獲約10000個單細胞。每一步操作都可視、可控制,doublets可以通過鏡檢洗除。隨后每個孔加入包含107-108特定探針集的與孔徑大小匹配的磁珠,標記每個細胞中的mRNA(每個磁珠的寡核苷酸序列中都有一段特異的序列用于標記細胞來源),然后使用Smart-seq2方法進行后續的反轉錄、擴增。擴增后的cDNA片段使用轉座酶片段化(這步倒有些類似ATAC-seq),富集3’末端轉錄本序列測序。理論上,每個唯一的UMI-轉錄本對應該對應來源于一個RNA分子的所有reads。但是現實往往并非如此,最常見的原因是:
不同的UMI序列不一定表示它們是不同的UMI分子 由于PCR或測序錯誤,堿基替換可能導致新的UMI序列。較長的UMI出現堿基替換的機會更多。根據細胞條碼測序錯誤估計,7-10%的10 bp長度的UMI中至少有一個堿基替換。如果錯誤沒有糾正,將會過高估計轉錄本的數目。
不同的轉錄本不一定是不同的分子 比對錯誤或多個比對位置可能導致某些UMI對應到錯誤的基因/轉錄本。這種類型的錯誤也會導致過高估計轉錄本的數目。
相同的UMI不一定意味著相同的分子UMI頻次的不同和短UMI可導致同一UMI和相同基因的不同mRNA分子相連,進而可能低估轉錄本數量。
后面再繼續不同技術之間的比較
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的单细胞转录组基本概念(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据中异常值的鉴定和处理(1)
- 下一篇: 当我们谈论生信的时候我们在谈什么