GATK推荐的序列存储格式-uBAM-CFANZ编程社区

欢迎关注"生信修炼手册"！

二代测序平台产生的数据通常用fastq格式进行存储，fastq 存储了我们最关心的序列和碱基质量的信息。就测序而言，这样的信息当然是足够了。但是对于分析而言，还缺少了一点信息。

给你一个fastq文件，你最多可以看出来样本名，测序平台，测序读长等基本信息，如果想知道测序类型（是WES, WGS 还是RNA-seq）, 样本的采样信息，样本的分组信息，这些信息从fastq 文件是无法得到的。这些实验相关的数据，称之为metadata。

uBAM和FASTQ相比，处理存储了序列和碱基质量信息之外，还可以存储metadata信息。

GATK4中，数据预处理部分的示意图如下
GATK推荐的序列存储格式-uBAM_数据

可以看到，对于原始数据，有两种格式，一种就是我们常见的FASTQ; 另外一种就是uBAM。官方更加推荐使用uBAM格式。

如何从FASTQ转换得到uBAM格式呢？我们需要借助picatd工具。picard提供了一个FastqToSam功能，可以将序列转换成ubam格式。

基本用法如下：

java -jar picard.jar FastqToSam
F1=sampleA_R1.fastq.gz
F2=sampleA_R2.fastq.gz
PL=illumina
SM=sampleA
LB=sampleA
RG=sampleA
O=sampleA.ubam

F1和F2指定原始的fastq格式的数据，对于双端测序，同时指定F1和F2, 对于单端测序，指定F1就可以了。PL代表platform, 指定测序平台，取值包含 illumina 和 solid 两种；SM代表 sample name, 指定样本名称；LB代表library name, 指定文库名称，RG代表read group, 指定reads group的名字，这两个参数一般和样本名相同就可以了。

ubam从名称上也可以看出来，是属于bam格式的，所以其内容也分成了头部和正文两个部分。