学习笔记,仅供参考,有错必纠
学习课程:生物信息快速入门 备注:确实课程挺快的,就是看了一遍没大听懂,还是要自己慢慢积累
文章目录
- 生物信息快速入门课程
- 测序原理
- 光信号
- 电信号
- 边合成边测序
- 可逆阻断终止技术
- 双末端测序
- 测序流程
- 样本质量检测
- 文库
- 创建文库
- 测序芯片
- cluster
- 上机测序
- 开始测序
- 边合成边测序
- 可逆阻断终止技术
- 继续测序第2,3...个碱基
- index序列
- 双末端测序
- 数据处理流程
生物信息快速入门课程
测序原理
测序就是对以下碱基进行区分.
光信号
可以利用光信号对碱基进行着色,进行碱基区分.
电信号
因为每个碱基自身的化学结构不同,本身带的电荷也不同,对其进行电击之后,可以通过检测电信号,区分不同的碱基.
边合成边测序
可逆阻断终止技术
双末端测序
测序流程
样本质量检测
对于要测序的DNA在测序之前,还需要进行样本检测,检查DNA序列的质量是否满足测序的要求.
- 最好为单倍体
- 达到DNA纯度要求OD值
- 样品未降解
- 样品量满足建库要求
文库
文库:就是DNA片段的一个集合,将测序片段打断之后就构成了一个DNA文库.
在测序之前,应该对DNA进行一些处理(格式化),从而满足测序的要求. 在建库之前需求要DNA样本进行随机序列打断,可以使用酶解法,超声波或机械打断等方式,被打断的片段的大小多在500bp左右. 打断之后,会进行文库选择操作,即回收在一定范围内的DNA片段,如果是500bp文库,可以回收300bp-800bp长度的片段.
创建文库
- 加A碱基,进行末端修复(容易连接后面的引物和接头)
- 加测序引物
- 加index(index标签是一个6-8bp的碱基片段,用来后续的数据拆分,从而区分不同物种)
- 加adapter(adapter接头P7和P5两种,与测序芯片上的接头正好互补配对)
下面是一个做好的文库,只有中间的白色片段是我们需要的,两侧是我们额外加入的部分.
测序芯片
测序芯片也叫Flowcell,一张Flowcell有8条通道,这8条通道也叫Lane,每条Lane的上下各有一个面,里面做了化学修饰,其上有很多的引物(即P7和P5引物,可以与处理好的DNA片段相结合). 每个面上有3个Swath,每个Swath上有16个Tile(Tile就是一个小区域). 一张Flowcell能容纳的DNA越多,测序的量也就越大.
cluster
建库好后,就可以进行cluster过程,该过程是测序中非常重要的步骤. 将样本DNA注入到Flowcell后,并不能立即上机测序,而要经过cluster处理. cluster可以有类似"放大"信号的功能,从而更容易区分标记的颜色. 具体的,cluster相当于一个clone的过程,cluster可以让一个DNA链变成具有相同信息的一簇DNA链,从而更容易区分标记. 有多少个cluster,就会有多少个碱基被测序.
上机测序
在完成cluster后,就可以进行上机测序了.
开始测序
在测序前,在片段上加入带有荧光标记的DNTP(脱氧核糖核苷三磷酸).
边合成边测序
可逆阻断终止技术
继续测序第2,3…个碱基
重复测序碱基,直至第一条链(reads1)测序完成.
index序列
在测序完第一条链之后,我们还要对index链进行测序.
首先,用碱性溶液对测序好的第一条链进行解链,然后冲掉. 此时,加入第2种测序引物,开始第2轮测序. 一般先读取6-8个碱基,这样就可以把index序列测序出来了.
双末端测序
在对index进行测序后,还要进行双末端测序. 所谓双末端测序,就是从正向测序一次,再从另一端再测序一次. 经过双末端测序后,测序就完成了.
数据处理流程
在测序完成后,我们得到的不是ATCG的序列文件,而是捕获的荧光信号照片. 我们还需要对这些照片进行图像处理,转化为有颜色的光点文件(bcl
文件).
bcl
是二进制文件,还不是我们需要的fastq
文本文件. 所以,我们还需要使用bcl2fastq
软件,将bcl文件进行格式转换. 下图展示了bcl
转换为fastq
的原理.
下图中,每张图片是每一次测序所拍摄的照片(即第1张图片是第一次测序所拍的图片,第2张图片是第2次测序所拍的图片,…),可以很清楚的看到每张照片上的红黄绿蓝圆点,每种颜色代表一种碱基. 在每张图片的给定位置读取碱基,即可得到一条序列. 通俗易懂的解释,就是把这些图片摞在一起,把相同位置取出来识别.
通常,某些碱基的化学结构非常相似,且4种荧光集团的波长之间有交叠,所以无法仅仅通过荧光集团的颜色判断碱基类型. 为了解决以上问题,可以通过4种荧光集团在4种被测波长处的贡献率来判断的.