日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

raw data/PF data/Q30 data/clean data的不同

發布時間:2023/12/13 综合教程 40 生活家
生活随笔 收集整理的這篇文章主要介紹了 raw data/PF data/Q30 data/clean data的不同 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

測序數據拿回來之后,會給一些數據。那么這些數據代表什么呢?

1. 原始數據(Raw data):一次測序產生的全部原始數據。理論上,它們應該是沒有經過任何過濾的,無論好壞。

2. PF數據(PF data):在測序過程中,Illumina內置軟件根據每個測序片段(read,通常每個片段長100個堿基)前25個堿基的質量決定該read是保留還是拋棄。如果沒有達到質控標準,則該read的全部堿基都被拋棄;達到標準、保留下來的數據叫做PF data。 PF代表pass filtering。

3. Q30數據(Q30 data):Illumina內置軟件根據統一設定的標準來評判堿基識別結果的可靠性,為每個堿基給予一個質量評分(QV)。PF data里質量評分>=30分的數據稱為Q30 data。 Q30的意思是該堿基的可靠性為99.9%。Q30數據通常占PF數據的80%左右。視樣本質量、操作水平、試劑質量、儀器狀態的不同,這一比例有很大波動。

4. 干凈數據(Clean data。數據還有不干凈的?):某些實驗室根據其自身的判斷標準,在PF data的基礎上,進一步刪除質量不好的reads后得到的數據。常見的刪除動作有:去接頭、去N含量高的reads、去質量評分低的reads、去掉每個read的最后幾個堿基,等等。

Clean data是國內叫法;PF data是來自Illumina的概念,是廣為接受的國際通行標準。

PF算法實質上是選取每個測序片段(read)前25個堿基的質量來代表整條片段的質量,從而決定該片段的去留。Illumina之所以這樣做,而不是逐個檢查整條片段所有堿基的質量,一方面是為了節省電腦資源,不致于花費太多時間進行運算,拖累測序進程,另一方面也是在大量測序數據的統計結果基礎上選擇的平衡點,只要前25個堿基是正常的,后75個堿基出問題的概率比較小。

一次測序實驗完成,測序儀上展示的數據量和%Q30都是以PF數據為基礎的。只要對數據質量有足夠信心,就不會對PF數據再進行加工,可以直接把PF數據交給客戶,進行下游的生物信息學分析。



三、為什么要clean data?

如果二代測序實驗成功,則PF data已經是質量比較好的數據,沒有必要進一步加工。從基本原理來講,任何形式的加工過濾,毫無例外都會引入額外的偏差(bias),嚴重的時候會導致生物信息學分析結論失真。

把PF數據加工成“干凈數據”,原因有多種,其中常見的原因之一是使用山寨的試劑(非Illumina原廠正版試劑)構建文庫,測序質量不盡如人意,Q30比例不高。在采用同種技術、同種平臺的情況下,文庫構建的質量是決定測序質量的關鍵。只要去掉質量差的數據,就可以提高Q30比例,可是這樣做法目的性太強,難免讓人心里打鼓。

讓我們來具體分析為了獲得clean data所做的4種常見動作是否有必要,及其潛在副作用。

1、去接頭。

使用正版試劑、按標準流程進行操作,接頭序列是不會被測出來的,這是因為測序引物的結合位點位于接頭的3'端,測序測到的第一個堿基就是插入片段的未知堿基,因此不需要去接頭。

在以下兩種特殊情況下,需要去接頭(adaptor),或者去標簽(barcode):

一是自己合成寡核苷酸、自配文庫構建試劑,這類設計通常把barcode安排在接頭的3'端后面,而測序引物的結合位點仍然在接頭的3'端,導致測序一開始測到的就是barcode序列,標簽測完了之后才是插入片段的未知序列。在這種情況下,完成demultiplexing之后,標簽序列完成了使命,就要把標簽序列刪除。

二是文庫的插入片段太短,測序片段長度(通常是100堿基)大于插入片段長度,導致插入片段被測通,一直測到下游接頭的部分或者全部序列。在這種情況下,要刪除下游的接頭序列。

插入片段太短,除了改變打斷條件,增加插入片段長度以外,有些種類的樣本比如small RNA本身就很短。小RNA的長度只有20幾個堿基,測序試劑的包裝是50堿基和100堿基兩種,都長于小RNA;另外,如果小RNA樣本數量少,湊不滿一張FC,就要與其他樣本一起測序,為了將就同一張FC上的其他樣本,往往就對小RNA進行2x100堿基的測序。在這種情況下,去接頭是必要的。

去接頭和去標簽,對測序數據本身不造成影響。

2、去含N多的測序片段。

一個測序片段里如果有很多堿基無法識別(用N表示),提示測序質量不高,或者測序過程中遭遇到問題,需要嚴肅對待,通過故障排除找到根本原因,針對性地采取必要措施進行改正。刪除這些片段,只是使數據看起來比較漂亮,治標不治本。

3、去質量評分低的片段。

PF算法本身去除的就是質量評分低的片段。如果要在PF之后再來一次“PF”,那就提示測序質量沒有達到正常水準,實乃不得已而為之。

4、去末端一定數目的堿基。

隨著測序讀長的增加,酶活性下降,熒光強度也在下降,因此測序數據質量逐漸降低乃是自然趨勢,片段末端的堿基質量低于片段前端的。

即使存在這樣的問題,只要樣本質量、試劑質量、操作技能和儀器性能等有保障,在廠家承諾的片段長度范圍內,%Q30是完全能夠達到指標的,并不需要人為去掉末端堿基。

生物學學渣,轉行中,目前在研究生物信息及數據挖掘。如有問題或建議,請多多賜教。

總結

以上是生活随笔為你收集整理的raw data/PF data/Q30 data/clean data的不同的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美一区二区日韩 | 亚洲97在线| 在线看v片 | 伊人久久激情 | 午夜黄色影院 | 又色又爽又黄18网站 | 日韩一区二区三区不卡 | 拍真实国产伦偷精品 | 清草视频| 97免费在线观看视频 | 久草综合在线 | 高跟肉丝丝袜呻吟啪啪网站av | 91在线第一页 | 人妻夜夜爽天天爽三区麻豆av网站 | 这里只有精品视频在线观看 | 性高潮久久久久久久久久 | 国产又猛又粗 | 影音先锋成人资源网 | 欧美精品免费一区二区 | 欧美第九页| 久久久久在线观看 | 都市激情自拍偷拍 | 岛国av一区| 欧美人体做爰大胆视频 | 亚洲男女激情 | 性av免费 | 亚洲欧美日韩一区二区三区四区 | 黑人操中国女人视频 | 国精品人妻无码一区二区三区喝尿 | 日本免费三级网站 | 亲子伦视频一区二区三区 | 亚洲第一页在线 | av网站地址| 天天干视频在线 | 国产精品伦子伦 | 精品久久久久成人码免费动漫 | 视频区小说区 | 双性娇喘浑圆奶水h男男漫画 | √天堂8资源中文在线 | 久草麻豆 | 日韩欧美亚洲国产 | 91麻豆免费看| 成人网免费 | www.啪| 特级一级片 | 欧美区日韩区 | 日韩国产二区 | 人人澡人人添 | 日本午夜免费 | 亚洲精品xxxx| www国产亚洲精品 | 欧洲一区二区三区 | 毛片网站入口 | 蝌蚪自拍网站 | 国产精品高潮呻吟 | 欧美日韩一区二区视频观看 | 欧美电影一区 | 91美女视频在线观看 | 日韩欧美一卡二卡 | 成年人在线观看av | 国产97自拍 | 日本黄色不卡视频 | 欧美日韩一区二区三区在线播放 | 国产成人亚洲一区二区 | 性一交一乱一精一晶 | av一级在线 | 女人被男人操 | 奇米成人 | 免费裸体视频女性 | 精品人妻一区二区三区四区不卡 | 不卡免费av| 日本大奶视频 | 亚洲砖区区免费 | 男人午夜天堂 | 中国黄色免费 | 精品欧美一区二区精品久久 | 91精品视频免费在线观看 | 久久久久久久久国产精品一区 | 日韩欧美一区在线 | 永久免费未网 | 污片免费看 | 亚洲精品电影在线观看 | 88av网站| 日本三级韩国三级三级a级中文 | 一区二区三区免费 | 亚洲av永久无码精品一百度影院 | 欧美另类人妖 | 亚洲欧洲日本精品 | 日韩欧美三级在线观看 | 无码国产精品一区二区免费16 | 国产一区二区av在线 | 91九色丨porny丨肉丝 | 久久精品视频国产 | 天海翼视频在线观看 | 国内免费精品视频 | 久久成人a| 美女自拍偷拍 | 在线观看日批 | 亚洲精品国产免费 |