Nature重磅综述|关于RNA-seq,你想知道的都在这(续)
生物信息學(xué)習(xí)的正確姿勢(shì)
NGS系列文章包括NGS基礎(chǔ)、在線繪圖、轉(zhuǎn)錄組分析?(Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細(xì)胞測(cè)序分析?(重磅綜述:三萬字長(zhǎng)文讀懂單細(xì)胞RNA測(cè)序分析的最佳實(shí)踐教程)、DNA甲基化分析、重測(cè)序分析、GEO數(shù)據(jù)挖掘(典型醫(yī)學(xué)設(shè)計(jì)實(shí)驗(yàn)GEO數(shù)據(jù)分析 (step-by-step))、批次效應(yīng)處理等內(nèi)容。
之前整理的一篇大綜述 — Nature重磅綜述 |關(guān)于RNA-seq,你想知道的都在這收到了熱烈反響,閱讀人數(shù)過萬。
行文很長(zhǎng),最后精煉下來的文字近三萬,適合深度閱讀思考。
上次發(fā)出時(shí),有讀者留言說部分專業(yè)名詞不理解。為了方便理解和對(duì)綜述有個(gè)概覽,特整理了下面的思維導(dǎo)圖,對(duì)應(yīng)原文,共計(jì)8個(gè)大標(biāo)題,大標(biāo)題下又分有小主題,各個(gè)分支介紹有每個(gè)主題的主要內(nèi)容及采用方法。
內(nèi)容已發(fā)布在石墨文檔,鏈接如下:
https://shimo.im/mindmaps/qQVV3r3Pqx8DVGjC/ 《RNA-seq思路圖(歡迎大家備注、修改,可先創(chuàng)建副本,在副本文件修改)》,可復(fù)制鏈接后用石墨文檔 App 或小程序打開
Note:想要打開全部分支、添加備注或修改信息,請(qǐng)先創(chuàng)建副本,在備份文件打開修改,原文件不支持修改
原文在深度總結(jié)了RNA-seq這些年的同時(shí),還分享了文中一些名詞的解釋,編譯分享如下,希望有助于進(jìn)一步理解學(xué)習(xí)。
NGS基礎(chǔ) - FASTQ格式解釋和質(zhì)量評(píng)估
NGS基礎(chǔ) - 高通量測(cè)序原理
NGS基礎(chǔ) - 參考基因組和基因注釋文件
NGS基礎(chǔ) - GTF/GFF文件格式解讀和轉(zhuǎn)換
NGS基礎(chǔ) - 測(cè)序原始數(shù)據(jù)下載
如果不是沒有錢,誰想測(cè)3個(gè)重復(fù)?
Read depth?Read深度:一個(gè)樣本測(cè)序得到的reads數(shù);容易和基因組測(cè)序的覆蓋度 (多少基因組區(qū)域被測(cè)到了)和測(cè)序深度混淆 (單個(gè)核苷酸被測(cè)到的次數(shù)或所有核苷酸被測(cè)到的平均深度)。
Short-read?短讀長(zhǎng):測(cè)序得到的長(zhǎng)度最大是500 bp的reads,常見的測(cè)序片段長(zhǎng)度為100-300 bp;本文中的短讀長(zhǎng)測(cè)序片段代表測(cè)到的mRNA片段和降解了的mRNA。
Long-read?長(zhǎng)讀長(zhǎng):測(cè)序得到的超過1000 bp的reads,本文中代表全長(zhǎng)或近乎全長(zhǎng)的mRNA。
Direct RNA sequencing?(dRNA-seq): 直接測(cè)序RNA而非cDNA的測(cè)序技術(shù),通常用于測(cè)序全長(zhǎng)或近全長(zhǎng)的mRNA 。
Multi-mapped reads?多重比對(duì)的reads:從轉(zhuǎn)錄組同源區(qū)域測(cè)序得到的reads,不能精確確認(rèn)其轉(zhuǎn)錄本或基因組的來源。
Synthetic long reads?合成long reads:通過組裝多個(gè)短讀長(zhǎng)得到長(zhǎng)讀長(zhǎng)的方法。
唯一分子標(biāo)識(shí)符(UMIs):在擴(kuò)增前,構(gòu)建RNA-seq文庫的時(shí)候加入的短序列或barcodes,理想情況下每條轉(zhuǎn)錄本結(jié)合一個(gè)唯一的標(biāo)識(shí)符,含有此標(biāo)識(shí)符的reads都來源于此轉(zhuǎn)錄本,定量時(shí)只計(jì)算一次??梢杂脕斫档蚏NA-seq的定量偏好性,在RNA起始量低的單細(xì)胞實(shí)驗(yàn)中尤為適用。
Read length?讀長(zhǎng):單個(gè)測(cè)序reads的長(zhǎng)度,short-read RNA測(cè)序得到的長(zhǎng)度通常是50-150 bp。
Sensitivity?敏感性:樣本中多大比例的轉(zhuǎn)錄本會(huì)被測(cè)到,敏感性越高,這一比例越高。它受樣本處理、文庫制備、測(cè)序和計(jì)算偏好性的影響。
Specificity?特異性:度量差異表達(dá)轉(zhuǎn)錄本被正確鑒定出的比例的方法,它受樣本處理,文庫制備,測(cè)序和計(jì)算偏好性的影響。
Duplication rates?重復(fù)Reads比率:比對(duì)到轉(zhuǎn)錄組相同位置的的測(cè)序reads的比例。在RNA-seq文庫中,一些轉(zhuǎn)錄本可能有高的重復(fù)率,因?yàn)樗鼈冊(cè)跇颖局斜磉_(dá)水平高。高表達(dá)的基因的重復(fù)率很高,而低表達(dá)基因的或許有著最小的重復(fù)率。由此RNA-seq面臨著一個(gè)挑戰(zhàn),該技術(shù)中大部分重復(fù)可能是高表達(dá)轉(zhuǎn)錄本帶來的真實(shí)信號(hào),而另一些則是由于擴(kuò)增和測(cè)序偏好性造成的。
Single-end sequencing?單端測(cè)序 (SE):只測(cè)序cDNA片段的一端,因其費(fèi)用低,常用于只關(guān)注差異基因表達(dá)的項(xiàng)目中。(NGS基礎(chǔ) - 高通量測(cè)序原理)
Paired-end sequencing?雙端測(cè)序 (PE):cDNA片段兩端分別測(cè)序,可以測(cè)序到cDNA的更多堿基,更好的識(shí)別剪接位點(diǎn),常于差異基因表達(dá)分析項(xiàng)目。
生物學(xué)重復(fù):對(duì)生物來源不同的樣本的多次檢測(cè),比如來自三個(gè)個(gè)體的組織,用于捕獲生物個(gè)體自身的變化;這個(gè)變化要么是待研究的對(duì)象,要么是噪音。相較之下,技術(shù)重復(fù)是對(duì)同樣的樣本做重復(fù)的操作—比如,對(duì)一個(gè)組織做三次處理。
Expression matrix?表達(dá)矩陣:差異表達(dá)RNA-seq項(xiàng)目的核心數(shù)據(jù)文件。每一行代表一個(gè)RNA,比如基因或者轉(zhuǎn)錄本。每一列是一個(gè)測(cè)序的樣本。矩陣中的數(shù)值是每個(gè)RNA的reads數(shù)。這些可能是對(duì)轉(zhuǎn)錄異構(gòu)體的計(jì)數(shù)估計(jì),并通常在后續(xù)的分析前先進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)化。
Spike-in control?內(nèi)參:按特定濃度添加到樣品中的外源核酸庫。它們通常是預(yù)先合成的不同濃度的RNA,用于監(jiān)測(cè)反應(yīng)效率和技術(shù)方法的偏差和假陰性結(jié)果。
Spatialomics?空間轉(zhuǎn)錄組學(xué):能保留給定樣本(通常是組織切片)中每個(gè)轉(zhuǎn)錄本的空間信息的轉(zhuǎn)錄組分析方法。
Nascent RNA?新生RNA:剛剛轉(zhuǎn)錄出來的RNA,與已經(jīng)加工并運(yùn)輸?shù)郊?xì)胞質(zhì)的RNA相對(duì)應(yīng)。
Translatome?翻譯組:細(xì)胞、組織或生物體中正在翻譯成蛋白質(zhì)的mRNA集合。
Structurome?結(jié)構(gòu)組:細(xì)胞、組織或生物體中RNA的二級(jí)和三級(jí)結(jié)構(gòu)集合。
Interactome?互作組:細(xì)胞、組織和生物體中分子相互作用的集合,包括有RNA-RNA或者RNA-蛋白質(zhì)的相互作用。
Differential gene expression (DGE)?差異基因:兩個(gè)實(shí)驗(yàn)組中表達(dá)顯著變化的基因。
你可能還想看
往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)
后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的Nature重磅综述|关于RNA-seq,你想知道的都在这(续)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国十大科技进展2项,世界十大科技进展6
- 下一篇: 学习生信的系列书籍