生物信息快速入门课程(part1)--测序原理-CFANZ编程社区

学习笔记，仅供参考，有错必纠
学习课程：生物信息快速入门备注：确实课程挺快的，就是看了一遍没大听懂，还是要自己慢慢积累

文章目录

生物信息快速入门课程

测序原理

光信号
电信号
边合成边测序
可逆阻断终止技术
双末端测序

测序流程

样本质量检测
文库
创建文库

测序芯片
cluster
上机测序

开始测序
边合成边测序
可逆阻断终止技术
继续测序第2,3...个碱基
index序列
双末端测序
数据处理流程

生物信息快速入门课程

测序原理

测序就是对以下碱基进行区分.
生物信息快速入门课程(part1)--测序原理_数据

光信号

可以利用光信号对碱基进行着色，进行碱基区分.

生物信息快速入门课程(part1)--测序原理_数据_02

电信号

因为每个碱基自身的化学结构不同，本身带的电荷也不同，对其进行电击之后，可以通过检测电信号，区分不同的碱基.

生物信息快速入门课程(part1)--测序原理_数据处理_03

边合成边测序

生物信息快速入门课程(part1)--测序原理_生物信息_04

可逆阻断终止技术

生物信息快速入门课程(part1)--测序原理_生物信息_05

双末端测序

生物信息快速入门课程(part1)--测序原理_数据处理_06

测序流程

样本质量检测

对于要测序的DNA在测序之前，还需要进行样本检测，检查DNA序列的质量是否满足测序的要求.

最好为单倍体
达到DNA纯度要求OD值
样品未降解
样品量满足建库要求

生物信息快速入门课程(part1)--测序原理_数据处理_07

文库

文库：就是DNA片段的一个集合，将测序片段打断之后就构成了一个DNA文库.

在测序之前，应该对DNA进行一些处理(格式化)，从而满足测序的要求. 在建库之前需求要DNA样本进行随机序列打断，可以使用酶解法，超声波或机械打断等方式，被打断的片段的大小多在500bp左右. 打断之后，会进行文库选择操作，即回收在一定范围内的DNA片段，如果是500bp文库，可以回收300bp-800bp长度的片段.

创建文库

生物信息快速入门课程(part1)--测序原理_数据处理_08

加A碱基，进行末端修复(容易连接后面的引物和接头)
加测序引物
加index(index标签是一个6-8bp的碱基片段，用来后续的数据拆分，从而区分不同物种)
加adapter(adapter接头P7和P5两种，与测序芯片上的接头正好互补配对)

生物信息快速入门课程(part1)--测序原理_生物信息_09

生物信息快速入门课程(part1)--测序原理_数据_10
生物信息快速入门课程(part1)--测序原理_生物信息_11

下面是一个做好的文库，只有中间的白色片段是我们需要的，两侧是我们额外加入的部分.

生物信息快速入门课程(part1)--测序原理_数据_12

测序芯片

测序芯片也叫Flowcell，一张Flowcell有8条通道，这8条通道也叫Lane，每条Lane的上下各有一个面，里面做了化学修饰，其上有很多的引物(即P7和P5引物，可以与处理好的DNA片段相结合). 每个面上有3个Swath，每个Swath上有16个Tile(Tile就是一个小区域). 一张Flowcell能容纳的DNA越多，测序的量也就越大.

生物信息快速入门课程(part1)--测序原理_数据处理_13
生物信息快速入门课程(part1)--测序原理_生物信息_14
生物信息快速入门课程(part1)--测序原理_数据_15

cluster

建库好后，就可以进行cluster过程，该过程是测序中非常重要的步骤. 将样本DNA注入到Flowcell后，并不能立即上机测序，而要经过cluster处理. cluster可以有类似"放大"信号的功能，从而更容易区分标记的颜色. 具体的，cluster相当于一个clone的过程，cluster可以让一个DNA链变成具有相同信息的一簇DNA链，从而更容易区分标记. 有多少个cluster，就会有多少个碱基被测序.

生物信息快速入门课程(part1)--测序原理_数据_16
生物信息快速入门课程(part1)--测序原理_数据处理_17

上机测序

在完成cluster后，就可以进行上机测序了.

开始测序

在测序前，在片段上加入带有荧光标记的DNTP(脱氧核糖核苷三磷酸).

生物信息快速入门课程(part1)--测序原理_数据处理_18

边合成边测序

生物信息快速入门课程(part1)--测序原理_数据处理_19

可逆阻断终止技术

生物信息快速入门课程(part1)--测序原理_数据处理_20

继续测序第2,3…个碱基

生物信息快速入门课程(part1)--测序原理_数据_21
生物信息快速入门课程(part1)--测序原理_数据处理_22
重复测序碱基，直至第一条链(reads1)测序完成.

生物信息快速入门课程(part1)--测序原理_生物信息_23

index序列

在测序完第一条链之后，我们还要对index链进行测序.

首先，用碱性溶液对测序好的第一条链进行解链，然后冲掉. 此时，加入第2种测序引物，开始第2轮测序. 一般先读取6-8个碱基，这样就可以把index序列测序出来了.

生物信息快速入门课程(part1)--测序原理_数据_24

生物信息快速入门课程(part1)--测序原理_生物信息_25

双末端测序

在对index进行测序后，还要进行双末端测序. 所谓双末端测序，就是从正向测序一次，再从另一端再测序一次. 经过双末端测序后，测序就完成了.

生物信息快速入门课程(part1)--测序原理_数据处理_26

数据处理流程

在测序完成后，我们得到的不是ATCG的序列文件，而是捕获的荧光信号照片. 我们还需要对这些照片进行图像处理，转化为有颜色的光点文件(bcl文件).

生物信息快速入门课程(part1)--测序原理_生物信息_27

生物信息快速入门课程(part1)--测序原理_数据处理_28

bcl是二进制文件，还不是我们需要的fastq文本文件. 所以，我们还需要使用bcl2fastq软件，将bcl文件进行格式转换. 下图展示了bcl转换为fastq的原理.
下图中，每张图片是每一次测序所拍摄的照片(即第1张图片是第一次测序所拍的图片，第2张图片是第2次测序所拍的图片，…)，可以很清楚的看到每张照片上的红黄绿蓝圆点，每种颜色代表一种碱基. 在每张图片的给定位置读取碱基，即可得到一条序列. 通俗易懂的解释，就是把这些图片摞在一起，把相同位置取出来识别.

生物信息快速入门课程(part1)--测序原理_数据处理_29