日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

fastq质量值_fastq 数据格式解析

發布時間:2023/12/10 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 fastq质量值_fastq 数据格式解析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

概念介紹

Read 讀段

Read 中文翻譯: 讀段,來自測序儀的raw data

一個Read 可能由多個片段組成, Read的索引是測序時的順序

Sequencing quality 測序質量

測序儀在測序的時候,每次測出來的結果可能都不一樣(儀器誤差 序列長度等各方面因素), 所以往往需要多測幾次,最后開決定是哪一個堿基。

Phred_Figure_1.jpg

Sequencing quality 是度量測序儀測序質量的指標。

測序質量指標有很多種 , 最常用的的是Phred quality score。

Sequencing quality metrics can provide important information

about the accuracy of each step in this process, including library

preparation, base calling, read alignment, and variant calling. Base

calling accuracy, measured by the Phred quality score (Q score), is the

most common metric used to assess the accuracy of a sequencing

platform. It indicates the probability that a given base is called

incorrectly by the sequencer.

Phred quanlity score 測序質量分數

概念

Q scores are used to measure base calling accuracy, one of the most

common metrics for assessing sequencing data quality. Low Q scores

can lead to increased false-positive variant calls, resulting in inaccurate

conclusions and higher costs for validation experiments.

測序質量分數

Q Phred quality scores

P base-calling-error probabilities

簡單來說 Q越大 就說明測序質量越好

Paste_Image.png

Paste_Image.png

格式

不同的測序儀采用不同的測序標準, 取值范圍不同

在存入Fastq格式的時候往往需要將數值轉換為單個字符,要將數值范圍映射到ASCII碼上

對于每個堿基的質量編碼標示,不同的軟件采用不同的方案,目前有5種方案:

Sanger,Phred quality score,值的范圍從0到92,對應的ASCII碼從33到126,但是對于測序數據(raw read data)質量得分通常小于60,序列拼接或者mapping可能用到更大的分數。

Solexa/Illumina 1.0, Solexa/Illumina quality score,值的范圍從-5到63,對應的ASCII碼從59到126,對于測序數據,得分一般在-5到40之間;

Illumina 1.3+,Phred quality score,值的范圍從0到62對應的ASCII碼從64到126,低于測序數據,得分在0到40之間;

Illumina 1.5+,Phred quality score,但是0到2作為另外的標示,詳見http://solexaqa.sourceforge.net/questions.htm#illumina

Illumina 1.8+

測序儀產生的數據格式

不同測序儀,不同版本號,產出的數據格式不一定相同

測序平臺

文件格式

說明

454測序

FASTA / FASTAQ

Illumina/Solexa

FASTQ

SOLiD

CSFASTA / QV.qual質量文件

測序結果包含峰值

下面的這四行就是一行Read(這里我們以FASTQ格式為例)

fastq 格式說明

@HWI-ST507:4:75:4291:2239#0/1

AAGCTTGTTGAAGGCTACCAAAAACGATTACAAGCTGTAATTTCTGCTAAAG

+HWI-ST507:4:75:4291:2239#0/1

ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]

第一行: @文件識別標志 + Read ID

HWI-ST507:4:75:4291:2239#0/1

說明

數據

含義

說明

HWI-ST507

測序儀的唯一編號

-

4

測序通道

說明這批數據是在測序儀的第四通道測出來的

75

Read讀長

代表每個Read的長度都是75bp

4291:2239

測序儀中的坐標數

#0

多樣本測序時候的索引

#0 代表單樣本測序

/1

每對paired-end 或者mate-pair的reads中的第一個

第二行:序列

第三行: + 文件標識標識 + Read ID

第三行的+后面的跟第一行相同, 可以省略, 但是+不可省略

第四行:質量分數

ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]

對應到到該儀器版本所采用過的phred標準,對應的ascall碼范圍求得整數質量分數值

總結

以上是生活随笔為你收集整理的fastq质量值_fastq 数据格式解析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。