0
点赞
收藏
分享

微信扫一扫

mutagene:肿瘤突变频谱数据库

mutagene是一个肿瘤突变频谱数据库,从ICGA, TCGA等肿瘤项目中收集整理蛋白编码基因上的体细胞突变数据,分析识别对应的突变频谱,对应的文章发表在Nucleic Acids Research,链接如下

​​https://academic.oup.com/nar/article/45/W1/W514/3796332​​

网址如下

​​https://www.ncbi.nlm.nih.gov/research/mutagene/​​​通过​​Explore​​菜单,可以查看数据库中收录的突变频谱信息,包括两个部分

1. Mutational profiles

根据以下4种条件,分别计算突变频谱

  1. Cancer types
  2. Primary tumor sites
  3. Benign samples
  4. Cancer Census Genes


以肿瘤类型为例,结果示意如下

mutagene:肿瘤突变频谱数据库_数据库

每个突变频谱用一个​​MG​​开头的编号唯一标识,提供了对应的频率分布柱状图,示意如下

mutagene:肿瘤突变频谱数据库_柱状图_02

2. Mutational signatures

采用​​NMF​​非负矩阵分解算法,从突变频谱中提取突变特征,提供了以下几种特变特征

  1. MUTAGENE-5 signatures
  2. MUTAGENE-10 signaltures
  3. COSMIC-30 signatures

结果如下所示

mutagene:肿瘤突变频谱数据库_数据库_03

通过​​Compare​​可以比较不同的突变频谱,根据样本的突变频谱进行聚类,结果示意如下

mutagene:肿瘤突变频谱数据库_数据库_04
mutagene:肿瘤突变频谱数据库_官网_05

多个突变频谱的比较,结果用热图来呈现,定义了以下4种距离来衡量不同突变频谱之间的差异

  1. Chi-squared distance
  2. Cosine distance
  3. Helliger distance
  4. Jensne-Shannon distance

详细的计算公式可以参考官方文档,多个频谱比较的热图示意如下

mutagene:肿瘤突变频谱数据库_柱状图_06

个突变频谱的比较,结果包含以下4个部分

1. Scatterplot

用散点图的形式展示突变频率在两种频谱频谱中的分布,结果示意如下

mutagene:肿瘤突变频谱数据库_柱状图_07

2. Log-ratio plot

计算两种频谱中的频率比值的对数,大于0代表在一组中高表达,小于0代表在另一组中高表达,用柱状图的形式展示log ratio的值,结果示意如下

mutagene:肿瘤突变频谱数据库_官网_08

3. Histograms

将两种频谱的柱状图放在一起,便于比较,结果示意如下

mutagene:肿瘤突变频谱数据库_官网_09

4.  Distance measures

结果示意如下

mutagene:肿瘤突变频谱数据库_柱状图_10

除此之外,官网还支持上传VCF文件,计算突变频谱等功能,更多用法请参考官网的帮助文档。

·end·

mutagene:肿瘤突变频谱数据库_数据库_11

举报

相关推荐

0 条评论