當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

raw data/PF data/Q30 data/clean data的不同

發(fā)布時間：2023/12/31 编程问答 67 豆豆

生活随笔收集整理的這篇文章主要介紹了 raw data/PF data/Q30 data/clean data的不同小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

測序數(shù)據(jù)拿回來之后，會給一些數(shù)據(jù)。那么這些數(shù)據(jù)代表什么呢？

1. 原始數(shù)據(jù)（Raw data）：一次測序產(chǎn)生的全部原始數(shù)據(jù)。理論上，它們應該是沒有經(jīng)過任何過濾的，無論好壞。

2. PF數(shù)據(jù)（PF data）：在測序過程中，Illumina內(nèi)置軟件根據(jù)每個測序片段（read，通常每個片段長100個堿基）前25個堿基的質(zhì)量決定該read是保留還是拋棄。如果沒有達到質(zhì)控標準，則該read的全部堿基都被拋棄；達到標準、保留下來的數(shù)據(jù)叫做PF data。 PF代表pass filtering。

3. Q30數(shù)據(jù)（Q30 data）：Illumina內(nèi)置軟件根據(jù)統(tǒng)一設定的標準來評判堿基識別結(jié)果的可靠性，為每個堿基給予一個質(zhì)量評分（QV）。PF data里質(zhì)量評分>=30分的數(shù)據(jù)稱為Q30 data。 Q30的意思是該堿基的可靠性為99.9%。Q30數(shù)據(jù)通常占PF數(shù)據(jù)的80%左右。視樣本質(zhì)量、操作水平、試劑質(zhì)量、儀器狀態(tài)的不同，這一比例有很大波動。

4. 干凈數(shù)據(jù)（Clean data。數(shù)據(jù)還有不干凈的？）：某些實驗室根據(jù)其自身的判斷標準，在PF data的基礎上，進一步刪除質(zhì)量不好的reads后得到的數(shù)據(jù)。常見的刪除動作有：去接頭、去N含量高的reads、去質(zhì)量評分低的reads、去掉每個read的最后幾個堿基，等等。

Clean data是國內(nèi)叫法；PF data是來自Illumina的概念，是廣為接受的國際通行標準。 PF算法實質(zhì)上是選取每個測序片段（read）前25個堿基的質(zhì)量來代表整條片段的質(zhì)量，從而決定該片段的去留。Illumina之所以這樣做，而不是逐個檢查整條片段所有堿基的質(zhì)量，一方面是為了節(jié)省電腦資源，不致于花費太多時間進行運算，拖累測序進程，另一方面也是在大量測序數(shù)據(jù)的統(tǒng)計結(jié)果基礎上選擇的平衡點，只要前25個堿基是正常的，后75個堿基出問題的概率比較小。一次測序?qū)嶒炌瓿?#xff0c;測序儀上展示的數(shù)據(jù)量和%Q30都是以PF數(shù)據(jù)為基礎的。只要對數(shù)據(jù)質(zhì)量有足夠信心，就不會對PF數(shù)據(jù)再進行加工，可以直接把PF數(shù)據(jù)交給客戶，進行下游的生物信息學分析。三、為什么要clean data? 如果二代測序?qū)嶒灣晒?#xff0c;則PF data已經(jīng)是質(zhì)量比較好的數(shù)據(jù)，沒有必要進一步加工。從基本原理來講，任何形式的加工過濾，毫無例外都會引入額外的偏差(bias)，嚴重的時候會導致生物信息學分析結(jié)論失真。把PF數(shù)據(jù)加工成“干凈數(shù)據(jù)”，原因有多種，其中常見的原因之一是使用山寨的試劑（非Illumina原廠正版試劑）構建文庫，測序質(zhì)量不盡如人意，Q30比例不高。在采用同種技術、同種平臺的情況下，文庫構建的質(zhì)量是決定測序質(zhì)量的關鍵。只要去掉質(zhì)量差的數(shù)據(jù)，就可以提高Q30比例，可是這樣做法目的性太強，難免讓人心里打鼓。讓我們來具體分析為了獲得clean data所做的4種常見動作是否有必要，及其潛在副作用。 1、去接頭。使用正版試劑、按標準流程進行操作，接頭序列是不會被測出來的，這是因為測序引物的結(jié)合位點位于接頭的3'端，測序測到的第一個堿基就是插入片段的未知堿基，因此不需要去接頭。在以下兩種特殊情況下，需要去接頭（adaptor），或者去標簽（barcode）：一是自己合成寡核苷酸、自配文庫構建試劑，這類設計通常把barcode安排在接頭的3'端后面，而測序引物的結(jié)合位點仍然在接頭的3'端，導致測序一開始測到的就是barcode序列，標簽測完了之后才是插入片段的未知序列。在這種情況下，完成demultiplexing之后，標簽序列完成了使命，就要把標簽序列刪除。二是文庫的插入片段太短，測序片段長度（通常是100堿基）大于插入片段長度，導致插入片段被測通，一直測到下游接頭的部分或者全部序列。在這種情況下，要刪除下游的接頭序列。插入片段太短，除了改變打斷條件，增加插入片段長度以外，有些種類的樣本比如small RNA本身就很短。小RNA的長度只有20幾個堿基，測序試劑的包裝是50堿基和100堿基兩種，都長于小RNA；另外，如果小RNA樣本數(shù)量少，湊不滿一張FC，就要與其他樣本一起測序，為了將就同一張FC上的其他樣本，往往就對小RNA進行2x100堿基的測序。在這種情況下，去接頭是必要的。去接頭和去標簽，對測序數(shù)據(jù)本身不造成影響。 2、去含N多的測序片段。一個測序片段里如果有很多堿基無法識別（用N表示），提示測序質(zhì)量不高，或者測序過程中遭遇到問題，需要嚴肅對待，通過故障排除找到根本原因，針對性地采取必要措施進行改正。刪除這些片段，只是使數(shù)據(jù)看起來比較漂亮，治標不治本。 3、去質(zhì)量評分低的片段。 PF算法本身去除的就是質(zhì)量評分低的片段。如果要在PF之后再來一次“PF”，那就提示測序質(zhì)量沒有達到正常水準，實乃不得已而為之。 4、去末端一定數(shù)目的堿基。隨著測序讀長的增加，酶活性下降，熒光強度也在下降，因此測序數(shù)據(jù)質(zhì)量逐漸降低乃是自然趨勢，片段末端的堿基質(zhì)量低于片段前端的。即使存在這樣的問題，只要樣本質(zhì)量、試劑質(zhì)量、操作技能和儀器性能等有保障，在廠家承諾的片段長度范圍內(nèi)，%Q30是完全能夠達到指標的，并不需要人為去掉末端堿基。

轉(zhuǎn)載于:https://www.cnblogs.com/huangyinger/p/10232967.html

總結(jié)

以上是生活随笔為你收集整理的raw data/PF data/Q30 data/clean data的不同的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：何謂 Raw Data ?
下一篇： fh 幅频特性曲线怎么画fl_开环幅相频

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

raw data/PF data/Q30 data/clean data的不同

總結(jié)