欢迎关注”生信修炼手册”!
mRNA是基因实时表达的产物,研究mRNA可以探究基因表达以及调控的规律;同时也可以用于发现基因结构的变化,比如可变剪切,融合基因等事件,本文整理了mRNA数据分析相关的资料。
首先是通用的NGS文库质控
- cutadapt去除adapter序列
- 使用Trimmomatic对NGS数据进行质量过滤
- 使用trim_galore对NGS数据进行质量过滤
- 使用fastp对NGS数据进行质量过滤
- FastQC评估测序数据的质量
- fastx_toolkit:处理fasta/fastq文件的小工具
质控之后的序列,有两条路可以走,第一种是基于比对的策略,先比对参考基因组,然后进行定量,这种策略也是最经典的,首选需要准备好合适的参考基因组
- 详解参考基因组的下载方式
- GFF文件格式简介
- 详解人类基因在不同数据库中的ID
- GTF文件格式简介
- 从UCSC下载基因组的GTF文件
- gencode-高质量的基因注释信息数据库
- 详解GFF转换为GTF文件
准备好参考基因组,还需要对应的软件来执行比对,定量工作
- hisat2:比对基因组工具简介
- SAM/BAM文件格式简介(一)
- SAM/BAM文件格式简介(二)
- STAR:转录组数据比对工具简介
- stringTie:转录本组装和定量工具
- 使用featureCounts进行定量分析
- 使用htseq-count进行定量分析
第二种策略称之为alignment-free, 就是不需要比对基因组直接定量的意思
- sailfish:不需要比对的转录本定量软件
- salmon:sailfish的升级版本
- kallisto:alignment-free转录本定量工具
定量之后,就是计算差异了。不同的定量方式,对应的差异分析软件也不同
- DESeq2归一化算法详解
- 采用DESeq2对表达量进行PCA和聚类分析
- 使用DESeq2进行两组间的差异分析
- edgeR提供的TMM归一化算法详解
- 负二项分布在差异分析中的应用
- 详解CPM定量方式
- 使用edgeR进行两组间的差异分析
- 使用ballgown进行转录本水平的差异分析
- sleuth:基于TPM值的差异分析
- 使用limma进行两组间的差异分析
除了差异分析外,针对多个分组或者时间节点的表达量数据,还可以进行聚类分析,研究其特定的表达模式
- 转录组中的基因表达模式聚类分析
- 使用Mfuzz进行时间序列表达模式聚类分析
- 使用maSigPro进行时间序列数据的差异分析
无论是差异分析也好,聚类也好,目的都是得到候选的基因,用于下游分析。得到候选基因之后,就是对其功能进行探索,有多个研究方向,最经典的是基于费舍尔精确检验的富集分析
- 揭秘差异基因功能富集分析
- GO.db:存储Gene Ontology信息的R包
- 详解如何获取物种所有基因对应的GO注释
- 使用topGO进行GO富集分析
- 详解GO的层级关系在富集分析中的应用
- 使用clusterProfiler进行GO富集分析
- 使用clusterProfiler进行KEGG富集分析
除了费舍尔精确精确检验外,还有比较流行的GSEA, 也可以进行功能富集分析
- MSigDB:GSEA提供的基因集数据库
- GSEA软件使用方法简介
- GSEA分析结果详细解读
- 关于GSEA的几点补充说明
此外,还可以通过基因间的相互关系网络来探索功能,有两种网络,蛋白质相互作用网络PPI和基因共表达网络,比如WGCNA。
PPI利用数据库中的蛋白质相互作用信息构建网络
- STRING:蛋白质相互作用(PPI网络)数据库简介
- MINT:蛋白质相互作用数据库简介
- IMex和IntAct数据库简介
- HPRD:human专属的PPI数据库
- BioGRID:蛋白质相互作用数据库
- 如何从PPI网络进一步挖掘信息
- PPI网络实战:String加Cytoscape联手挖掘PPI网络
- 使用Cytoscape的NetworkAnalyzer工具计算网络相关属性
- 采用igraph包分析网络数据
- 通过NetworkAnalyst在线服务构建PPI网络
WGCNA表示加权基因共表达网络
- 加权基因共表达网络,其实并没有那么神秘
- WGCNA如何挖掘潜在的共表达基因
- WGCNA将共表达基因与表型数据相关联
- WGCNA如何从module中挖掘关键基因
- WGCNA实战练习
除了研究基因表达和功能,通过mRNA数据还可以分析可变剪切,融合基因,转录因子,RNA SNP和RNA编辑等事件。
融合基因,指的是两个或者多个基因在转录时发生了融合,融合的部分当做一个新的基因来产生转录本
- 揭秘转录组分析中的融合基因鉴定
- 使用FusionMap检测融合基因
- 使用tophat-fusion鉴定融合基因
- 使用STAR-fusion进行融合基因的分析
- 使用SOAPfuse进行融合基因的分析
- 使用EricScript进行融合基因的分析
- 使用fusioncatcher进行融合基因的分析
- 融合基因数据库大全
可变剪切是真核生物独有的一种机制,保证了基因功能的多样性
- 可变剪切的意义和重要性
- 揭秘可变剪切研究的本质
- 使用ASProfile分析可变剪切事件
- 使用rmats进行可变剪切的分析
- 使用MISO进行可变剪切的分析
- rmats2sashimiplot:可视化rmats的可变剪切结果
转录因子是一类具有调控功能的蛋白质
- TRANSFAC:转录因子及其靶基因数据库
- JASPAR:转录因子motif数据库
- TFTG:human转录因子靶基因数据库
- ENCODE转录因子靶基因数据库
- TRRUST:人和小鼠的转录因子调控网络数据库
- footprintDB:综合性的转录因子数据库
- 转录因子的靶基因,看这一个数据库就够了
RNA编辑,指的是转录后的RNA发生的碱基插入,缺失,替换等现象,属于转录后修饰的一种
- RNA编辑简介
- RADAR:RNA编辑位点的数据库
- DARNED:RNA编辑位点数据库
- REDIportal:最大的人类RNA编辑位点数据库
以上就是所有的资料了,相信通过资料,可以帮助大家对于mRNA数据分析有更多清晰的认识。整理不易,欢迎转发,收藏,点赞。
·end·