FASTQ格式

FASTQ格式是一種保存生物序列（通常為核酸序列）及其測序質量得分信息的文本格式。序列與質量得分皆由單個ASCII字符表示。

該格式最初由維爾康姆基金會桑格研究所開發，旨在將FASTA格式序列及其質量數據整合在一起。而目前，FASTQ格式已經成為了保存高通量測序結果的事實標準。^[1]

格式[編輯]

FASTQ文件中，一個序列通常由四行組成：

以下為一個包含單個序列的FASTQ文件示例：

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中!為最低質量、~則為最高質量。以下字符從左到右代表從低到高的質量得分的：

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

字符與對應的ASCII碼如下：

最初桑格研究所的FASTQ格式允許序列與質量信息分成多行保存。但一般不推薦採用這種方式，因為第一、第三行開頭的@與+符號同樣也可能出現在質量信息中，可能會造成信息提取的困難。