0
点赞
收藏
分享

微信扫一扫

TCGA甲基化数据(.idat)文件导入Sample Sheet构建

捌柒陆壹 2022-04-21 阅读 71
数据分析

TCGA数据库里面下载的数据是这个样子的:
在这里插入图片描述
下载好以后
在这里插入图片描述
解压以后打开是这样子的
在这里插入图片描述
文件夹里面是.idat文件,类似于这样
在这里插入图片描述

还要再下载一个临床文件
在这里插入图片描述
下载来的是这样的:
在这里插入图片描述
打开以后是这样的:
在这里插入图片描述

然后把每个文件夹里面的.idat文件拿出来,刚到一个单独的文件夹里面,然后在构造一个Sample Sheet.csv文件就可以用ChAMP包导入文件了。
ChAMP测试数据中展示的数据和Sample Sheet.csv是这样的:
在这里插入图片描述
在这里插入图片描述
上面是.所有的文件,下面是Sample Sheet文件,这里面主要的是sample_name,sample_group,
sentrix_id,sentrix_position.这里面的C表示control,正常样本,T表示tumour,肿瘤样本,我们下载的临床文件里面有C或T的信息,最后面两列可以看出来对应着.idat文件的名称,两列之间用_连起来就是.idat文件名的前面两部分,Sample Sheet.csv里面的样本对应文件夹里面红和绿一对.idat文件。
然后我们开始构造自己的Sample Sheet.csv文件,我下了三个病例,有六个.idat文件,所以Sample Sheet.csv里面应该有三个样本的信息,我们可以根据临床信息中的样本名字命名,临床数据里面有正常或是患病信息,但是名称不一定是sample_group,要自己分辨,Sample_Well那一行不太清楚是什么意思,可以根据测试数据随便写,最后两列的话,由于文件原本的命名不太好看,我就用临床的样本名重新命名了
在这里插入图片描述
然后Sample Sheet.csv是这样的
在这里插入图片描述
然后一定要注意,命名文件名的时候,连接Sample Sheet最后两列之间的横线一定要是“_”不然没法识别,然后就可以在R里面导入,可以做后续一系列的分析了。

library('ChAMP')
library('minfi')
myLoad<-champ.load('./idat',arraytype='450k')

用原本的文件名称是否能做我已经懒得试了,我专门下了一个样本量非常小的来尝试,所以这里面各种操作都是手动操作,后期要做数据分析的话一定是需要写代码完成的。

举报

相关推荐

0 条评论