0
点赞
收藏
分享

微信扫一扫

RNAseq-踩坑01 -- 下机文件整理出错

攻城狮Chova 2021-09-19 阅读 13
生信分析

对于一个第一次做生信的小白,真的是连小问题都会发生,

问题:【2021.3.25】 查看pLVX-ShRNA-2 count.tsv 文件, 发现几乎都是0,不知道是由于下载数据放错了(第一次在命令行误删了这个数据,后面单独下载添加的),还是测序数据本身的问题。

解决:

  1. 检查文件大小 $ ll 发现pLVX-ShRNA-2的两个fastq文件大小一样,应该是自己弄错了文件。
  2. 重新下载6个样本的12个*.fq.gz 文件,重新跑一次 前三步。
    但是发现 wget url 下载被拒绝,于是用浏览器本地下载,在上传到服务器分析。

由于wget下载下来的数据文件名会很奇怪,或者是由于测序公司命名的问题等,我们需要根据需要重命名,这时候就可能出现命名错误,弄错文件的可能性。

最好整理好之后 ,查看一下文件的大小粗略检查一下。

下面总结一下,查看文件信息的几种命令

  • ll -rth 可以显示当前目录下的文件,及其简单信息,但是无法查看具体大小等信息
[yelx@localhost rawdata]$ ll -rth
total 19G
-rw-rw-r--. 1 yelx yelx 1.5G Mar 26 12:20 DX20210308_RNA_seq-2-pLVX-ShRNA-2-H1975_BKDL210012906-2a-A46-AK4544_1.fq.gz
-rw-rw-r--. 1 yelx yelx 1.5G Mar 26 12:21 DX20210308_RNA_seq-2-pLVX-ShRNA-2-H1975_BKDL210012906-2a-A46-AK4544_2.fq.gz
-rw-rw-r--. 1 yelx yelx 1.6G Mar 26 12:33 DX20210308_RNA_seq-2-pLVX-ShRNA-3-H1975_BKDL210012906-2a-A44-AK4544_1.fq.gz
-rw-rw-r--. 1 yelx yelx 1.6G Mar 26 12:34 DX20210308_RNA_seq-2-pLVX-ShRNA-3-H1975_BKDL210012906-2a-A44-AK4544_2.fq.gz
-rw-rw-r--. 1 yelx yelx 1.5G Mar 26 12:46 DX20210308_RNA_seq-2-RBM33-Sh-1-H1975_BKDL210012906-2a-A31-AK4544_1.fq.gz
-rw-rw-r--. 1 yelx yelx 1.6G Mar 26 12:48 DX20210308_RNA_seq-2-RBM33-Sh-1-H1975_BKDL210012906-2a-A31-AK4544_2.fq.gz
-rw-rw-r--. 1 yelx yelx 1.8G Mar 26 12:59 DX20210308_RNA_seq-4-pLVX-ShRNA-1-H1975_BKDL210013572-2a-A47-AK4544_1.fq.gz
-rw-rw-r--. 1 yelx yelx 1.8G Mar 26 13:01 DX20210308_RNA_seq-4-pLVX-ShRNA-1-H1975_BKDL210013572-2a-A47-AK4544_2.fq.gz
-rw-rw-r--. 1 yelx yelx 1.7G Mar 26 13:11 DX20210308_RNA_seq-4-RBM33-Sh-2-H1975_BKDL210013572-2a-A26-AK4544_1.fq.gz
-rw-rw-r--. 1 yelx yelx 1.7G Mar 26 13:13 DX20210308_RNA_seq-4-RBM33-Sh-2-H1975_BKDL210013572-2a-A26-AK4544_2.fq.gz
-rw-rw-r--. 1 yelx yelx 1.4G Mar 26 13:21 DX20210308_RNA_seq-4-RBM33-Sh-3-H1975_BKDL210013572-2a-A43-AK4544_1.fq.gz
-rw-rw-r--. 1 yelx yelx 1.4G Mar 26 13:22 DX20210308_RNA_seq-4-RBM33-Sh-3-H1975_BKDL210013572-2a-A43-AK4544_2.fq.gz

1. ls -l

  • ls 命令一般用于查看文件和目录的信息,包括文件和目录权限、拥有者、所对应的组、文件大小、修改时间、文件对应的路径等等信息
  • ls -l 查看文件大小,在大部分的Linux系统中,都已经设置了ls -l的别名为ll



    其实,一般很少遇见两个的样本的大小完全一样的。

2. du

  • du命令一般用于统计文件和目录所占用的空间大小



3. wc

  • wc -c + 文件名 统计字节数
wc -c DX20210308_RNA_seq-2-pLVX-ShRNA-2-H1975_BKDL210012906-2a-A46-AK4544_1.fq.gz 
1520130156 DX20210308_RNA_seq-2-pLVX-ShRNA-2-H1975_BKDL210012906-2a-A46-AK4544_1.fq.gz
  • wc -l +文件名 统计行数
$ wc -l DX20210308_RNA_seq-2-pLVX-ShRNA-2-H1975_BKDL210012906-2a-A46-AK4544_1.fq.gz 
6567419 DX20210308_RNA_seq-2-pLVX-ShRNA-2-H1975_BKDL210012906-2a-A46-AK4544_1.fq.gz

4. stat

  • stat + 文件名
    只能逐个查看文件的信息,但是信息很详细。
$ stat DX20210308_RNA_seq-2-pLVX-ShRNA-2-H1975_BKDL210012906-2a-A46-AK4544_1.fq.gz 
  File: ‘DX20210308_RNA_seq-2-pLVX-ShRNA-2-H1975_BKDL210012906-2a-A46-AK4544_1.fq.gz’
  Size: 1520130156  Blocks: 2969016    IO Block: 4096   regular file
Device: 822h/2082d  Inode: 70254601    Links: 1
Access: (0664/-rw-rw-r--)  Uid: ( 1000/    yelx)   Gid: ( 1000/    yelx)
Context: unconfined_u:object_r:unlabeled_t:s0
Access: 2021-05-28 11:10:49.171449423 +0800
Modify: 2021-03-26 12:20:39.309920271 +0800
Change: 2021-04-08 11:07:56.997003012 +0800
 Birth: -
举报

相关推荐

0 条评论