0
点赞
收藏
分享

微信扫一扫

mRNA数据分析专题

欢迎关注”生信修炼手册”!


mRNA是基因实时表达的产物,研究mRNA可以探究基因表达以及调控的规律;同时也可以用于发现基因结构的变化,比如可变剪切,融合基因等事件,本文整理了mRNA数据分析相关的资料。


首先是通用的NGS文库质控


  • ​​cutadapt去除adapter序列​​
  • ​​使用Trimmomatic对NGS数据进行质量过滤​​
  • ​​使用trim_galore对NGS数据进行质量过滤​​
  • ​​使用fastp对NGS数据进行质量过滤​​
  • ​​FastQC评估测序数据的质量​​
  • ​​fastx_toolkit:处理fasta/fastq文件的小工具​​


质控之后的序列,有两条路可以走,第一种是基于比对的策略,先比对参考基因组,然后进行定量,这种策略也是最经典的,首选需要准备好合适的参考基因组


  • ​​详解参考基因组的下载方式​​
  • ​​GFF文件格式简介​​
  • ​​详解人类基因在不同数据库中的ID​​
  • ​​GTF文件格式简介​​
  • ​​从UCSC下载基因组的GTF文件​​
  • ​​gencode-高质量的基因注释信息数据库​​
  • ​​详解GFF转换为GTF文件​​


准备好参考基因组,还需要对应的软件来执行比对,定量工作


  • ​​hisat2:比对基因组工具简介​​
  • ​​SAM/BAM文件格式简介(一)​​
  • ​​SAM/BAM文件格式简介(二)​​
  • ​​STAR:转录组数据比对工具简介​​
  • ​​stringTie:转录本组装和定量工具​​
  • ​​使用featureCounts进行定量分析​​
  • ​​使用htseq-count进行定量分析​​

第二种策略称之为alignment-free, 就是不需要比对基因组直接定量的意思


  • ​​sailfish:不需要比对的转录本定量软件​​
  • ​​salmon:sailfish的升级版本​​
  • ​​kallisto:alignment-free转录本定量工具​​


定量之后,就是计算差异了。不同的定量方式,对应的差异分析软件也不同


  • ​​DESeq2归一化算法详解​​
  • ​​采用DESeq2对表达量进行PCA和聚类分析​​
  • ​​使用DESeq2进行两组间的差异分析​​
  • ​​edgeR提供的TMM归一化算法详解​​
  • ​​负二项分布在差异分析中的应用​​
  • ​​详解CPM定量方式​​
  • ​​使用edgeR进行两组间的差异分析​​
  • ​​使用ballgown进行转录本水平的差异分析​​
  • ​​sleuth:基于TPM值的差异分析​​
  • ​​使用limma进行两组间的差异分析​​


除了差异分析外,针对多个分组或者时间节点的表达量数据,还可以进行聚类分析,研究其特定的表达模式


  • ​​转录组中的基因表达模式聚类分析​​
  • ​​使用Mfuzz进行时间序列表达模式聚类分析​​
  • ​​使用maSigPro进行时间序列数据的差异分析​​

无论是差异分析也好,聚类也好,目的都是得到候选的基因,用于下游分析。得到候选基因之后,就是对其功能进行探索,有多个研究方向,最经典的是基于费舍尔精确检验的富集分析


  • ​​揭秘差异基因功能富集分析​​
  • ​​GO.db:存储Gene Ontology信息的R包​​
  • ​​详解如何获取物种所有基因对应的GO注释​​
  • ​​使用topGO进行GO富集分析​​
  • ​​详解GO的层级关系在富集分析中的应用​​
  • ​​使用clusterProfiler进行GO富集分析​​
  • ​​使用clusterProfiler进行KEGG富集分析​​

除了费舍尔精确精确检验外,还有比较流行的GSEA, 也可以进行功能富集分析


  • ​​MSigDB:GSEA提供的基因集数据库​​
  • ​​GSEA软件使用方法简介​​
  • ​​GSEA分析结果详细解读​​
  • ​​关于GSEA的几点补充说明​​

此外,还可以通过基因间的相互关系网络来探索功能,有两种网络,蛋白质相互作用网络PPI和基因共表达网络,比如WGCNA。


PPI利用数据库中的蛋白质相互作用信息构建网络


  • ​​STRING:蛋白质相互作用(PPI网络)数据库简介​​
  • ​​MINT:蛋白质相互作用数据库简介​​
  • ​​IMex和IntAct数据库简介​​
  • ​​HPRD:human专属的PPI数据库​​
  • ​​BioGRID:蛋白质相互作用数据库​​
  • ​​如何从PPI网络进一步挖掘信息​​
  • ​​PPI网络实战:String加Cytoscape联手挖掘PPI网络​​
  • ​​使用Cytoscape的NetworkAnalyzer工具计算网络相关属性​​
  • ​​采用igraph包分析网络数据​​
  • ​​通过NetworkAnalyst在线服务构建PPI网络​​

WGCNA表示加权基因共表达网络


  • ​​加权基因共表达网络,其实并没有那么神秘​​
  • ​​WGCNA如何挖掘潜在的共表达基因​​
  • ​​WGCNA将共表达基因与表型数据相关联​​
  • ​​WGCNA如何从module中挖掘关键基因​​
  • ​​WGCNA实战练习​​

除了研究基因表达和功能,通过mRNA数据还可以分析可变剪切,融合基因,转录因子,RNA SNP和RNA编辑等事件。


融合基因,指的是两个或者多个基因在转录时发生了融合,融合的部分当做一个新的基因来产生转录本


  • ​​揭秘转录组分析中的融合基因鉴定​​
  • ​​使用FusionMap检测融合基因​​
  • ​​使用tophat-fusion鉴定融合基因​​
  • ​​使用STAR-fusion进行融合基因的分析​​
  • ​​使用SOAPfuse进行融合基因的分析​​
  • ​​使用EricScript进行融合基因的分析​​
  • ​​使用fusioncatcher进行融合基因的分析​​
  • ​​融合基因数据库大全​​


可变剪切是真核生物独有的一种机制,保证了基因功能的多样性


  • ​​可变剪切的意义和重要性​​
  • ​​揭秘可变剪切研究的本质​​
  • ​​使用ASProfile分析可变剪切事件​​
  • ​​使用rmats进行可变剪切的分析​​
  • ​​使用MISO进行可变剪切的分析​​
  • ​​rmats2sashimiplot:可视化rmats的可变剪切结果​​

 转录因子是一类具有调控功能的蛋白质


  • ​​TRANSFAC:转录因子及其靶基因数据库​​
  • ​​JASPAR:转录因子motif数据库​​
  • ​​TFTG:human转录因子靶基因数据库​​
  • ​​ENCODE转录因子靶基因数据库​​
  • ​​TRRUST:人和小鼠的转录因子调控网络数据库​​
  • ​​footprintDB:综合性的转录因子数据库​​
  • ​​转录因子的靶基因,看这一个数据库就够了​​

RNA编辑,指的是转录后的RNA发生的碱基插入,缺失,替换等现象,属于转录后修饰的一种


  • ​​RNA编辑简介​​
  • ​​RADAR:RNA编辑位点的数据库​​
  • ​​DARNED:RNA编辑位点数据库​​
  • ​​REDIportal:最大的人类RNA编辑位点数据库​​

以上就是所有的资料了,相信通过资料,可以帮助大家对于mRNA数据分析有更多清晰的认识。整理不易,欢迎转发,收藏,点赞。


·end·

mRNA数据分析专题_数据分析

举报

相关推荐

0 条评论