0
点赞
收藏
分享

微信扫一扫

使用tophat-fusion鉴定融合基因

欢迎关注”生信修炼手册”!

tophat-fusion 是一款利用RNA_seq 数据鉴定融合基因的工具,官网链接如下:

​​http://ccb.jhu.edu/software/tophat/fusion_index.shtml​​

该软件是集成在tophat软件中的,只需要安装好tophat之后就可以使用了,使用方法也比较简单,唯一需要注意的是目录结构。

tophat-fusion要求固定的目录结构,比如我在​​result​​文件夹下进行tophat-fusion的分析, 那么我需要在该目录下准备以下几个文件

  1. 物种对应的refGene.txt 和 ensGene.txt, 这两个文件可以从UCSC下载得到
  2. 新建一个blast 文件夹,注意文件夹的名字必须为”blast”, 在blast 文件夹下需要从NCBI下载​​nt​​, ​​human_genomic​​, ​​other_genomic​​开头的所有文件,下载的链接如下:

ftp://ftp.ncbi.nlm.nih.gov/blast/db/


  1. 结果输出目录,每个样本对应一个输出目录,输出目录的前缀为​​tophat_​​, 下划线之后加上样本名称,类似​​tophat_MCF​​,​​MCF​​为样本的名字

当然你还需要物种对应的​​bowtie1​​​的索引文件,注意这里必须为​​bowtie1​​的索引, tophat检测融合基因时推荐bowtie1的索引方式。

上述文件都准备好之后,就可以开始分析了,步骤如下

1. 比对参考基因组

第一步其实就是利用tophat将reads比对到参考基因组上,只不过对于融合基因的reads而言,其比对方式比较特殊,需要添加额外的参数,具体代码如下

tophat2 -o tophat_MCF7 -p 20 --fusion-search --keep-fasta-order --bowtie1 --no-coverage-search -r 0 --mate-std-dev 80 --max-intron-length 100000 --fusion-min-dist 100000 --fusion-anchor-length 13 --fusion-ignore-chromosomes chrM hg19_bowtie1/hg19 SRR064286_1.fastq SRR064286_2.fastq

2. 生成结果

在​​result​​目录下,直接运行如下代码就可以了

tophat-fusion-post -p 20 --num-fusion-reads 1 --num-fusion-pairs 2 --num-fusion-both 5 hg19_bowtie1/hg19

默认处理的是​​human​​​的融合基因,如果是其他物种,需要添加​​--non-human​​参数。

tophat-fusion会根据目录结构自动识别对应的样本, 运行完成之后,会生成一个名为​​tophatfusion_out​​的文件夹,该文件夹下是所有样本的融合基因分析结果。

我们只需要看其中的​​result.html​​文件就可以了,内容示意如下

使用tophat-fusion鉴定融合基因_目录结构

每一列的含义如下

  1. Sample name in which a fusion is identified
  2. Gene on the “left” side of the fusion
  3. Chromosome ID on the left
  4. Coordinates on the left
  5. Gene on the “right” side
  6. Chromosome ID on the right
  7. Coordinates on the right
  8. Number of spanning reads
  9. Number of spanning mate pairs
  10. Number of spanning mate pairs where one end spans a fusion

相比fusionmap, 该软件的运行时间特别的长。

·end·

—如果喜欢,快分享给你的朋友们吧—


扫描关注微信号,更多精彩内容等着你!

使用tophat-fusion鉴定融合基因_ide_02

举报

相关推荐

0 条评论