文章目录
一、Linux文件系统
1.1 磁盘
- 磁盘上存放着大量的文件,这些文件需要被管理组织起来,操作系统中管理和存储文件信息的软件机构称为文件系统。
- 最开始存放数据的硬件是磁盘,随着时代发展,像我们的笔记本电脑大多使用SSD硬盘,但是磁盘还是主要的存储设备,可以用存放大量的数据,关键是便宜。
- 下图是一张磁盘的结构图,磁盘的核心就是这些盘面,盘面能够记录二进制序列,其原理就是通过电流产生感应磁场来改变某些特定位置的磁极从而将电信号持久化到磁盘上。
-
磁盘工作时是处于一种高速旋转的状态,磁头依靠磁盘的高速旋转引起的空气动力效应悬浮在盘面上,磁头在副轴马达的带动下可以在极短的时间内精确的切换到数据所在的磁道。
-
磁盘是一种高精度的设备,在高速旋转的情况下,磁面上的一粒灰尘都可能会导致磁盘损坏,因此磁盘通常是在无尘的环境下密封。
-
每一个盘面都对应一个磁臂,通过这些磁臂上的磁头来定位数据的位置,依次确定磁道(柱面)、盘面、以及扇区,这三个值称为CHS地址。
-
扇区是硬盘的最小操作单位,但扇区对于操作系统来说还是太小了,一般操作系统有自己的硬盘操作最小单位,在linux下一般为4k。
-
为了方便管理数据,我们可以将硬盘这样的物理块设备,分割成多个逻辑块设备。或者,我们也可以将多个物理块设备,组合成一个容量更大的逻辑块设备。
-
操作系统需要管理磁盘,将磁盘抽象为一个线性的结构,类似于卷尺拉出来是线性的收进去是圆形的,因此我们可以将磁盘想象成线性的结构数组,对磁盘的管理就可以转换成对数组空间的管理了。
-
假设磁盘抽象的出的数组为sector disk[100000000],那么我们定位一个扇区只需要数组的下标即可(这种下标称为LBA–逻辑块地址),将LBA转换成CHS地址,再将数据写入对应的磁盘上去。
-
磁盘上存储的基本单位是扇区(512字节常规),文件系统访问磁盘的基本单位是4KB,即一次IO访问8个扇区。
-
这样做有两个好处:一、提高IO的效率 ;二、让软件(OS)和硬件(磁盘)具有强相关性即解耦合。
1.2 inode
使用ll
查看文件,除了文件名还可以看到文件的其他属性,如下图:
每行包含7列:
- 模式:代表文件的类型以及权限
- 硬链接数
- 文件所有者
- 所属组
- 文件大小
- 最后修改时间
- 文件名
如果需要查看文件更详细的信息可以使用stat命令,如下图:
在上图中我们可以看到文件属性中有一个Inode字段,在Linux系统中inode
用于表示唯一的一个文件。
Linux ext2
文件系统,下图为磁盘一个分区的文件系统图(内核内存映像肯定有所不同),磁盘是典型的块设备,硬盘分区被划分为一个个的block。一个block的大小是由格式化的时候确定的,并且不可以更改。例如mke2fs的-b选项可以设定block大小为1024、2048或4096字节。而下图中启动块(Boot Block)的大小是确定的。
启动块(Boot Block)
:里面包含操作系统的位置以及分区表,开机信息。Block Group
:ext2文件系统会根据分区的大小划分为数个Block Group。而每个Block Group都有着相同的结构组成。超级块(Super Block)
:存放文件系统本身的结构信息。记录的信息主要有:bolck 和 inode的总量,未使用的block和inode的数量,一个block和inode的大小,最近一次挂载的时间,最近一次写入数据的时间,最近一次检验磁盘的时间等其他文件系统的相关信息。Super Block的信息被破坏,可以说整个文件系统结构就被破坏了,因此超级快通常会备份一定数量。GDT(Group Descriptor Table)
:块组描述符,描述块组属性信息,记录inode数、起始inode编号、block使用量以及剩余量等等信息。块位图(Block Bitmap)
:Block Bitmap中记录着Data Block中哪个数据块已经被占用,哪个数据块没有被占用。inode位图(inode Bitmap)
:每个bit表示一个inode是否空闲可用。i节点表(inode table)
:以128字节为单位,存放文件属性 如 文件大小,所有者,最近修改时间等。数据区(Data Blocks)
:以4KB为单位,存放文件内容。
在inode table中保存了文件对应的所有属性,那么一个inode如何与属于自己的文件内容关联起来呢?
struct inode
{
// 文件所有属性
...
blocks[15];
...
}
//在inode的结构体中包含一个blocks的数组,这个数组保存了文件对应的block编号
//其中[0, 11]:直接保存该文件的blocks编号
//[12, 15]:指向一个datablock但是这个datablock不保存有效数据,而保存该文件所对应的其它块编号
还要注意的是,文件名也是文件属性,但是inode里面并不保存文件名;Linux下,底层实际都是通过inode编号来标识文件。那么操作系统是如何准确帮用户通过文件名找到对应的文件内容呢?首先,用户对文件进行操作时都是在一个目录下,不管是创建还是删除。其次目录也是一个文件,既然是文件就有属性和内容,其属性与普通文件类似,那么目录文件的内容是什么呢?
- 创建一个新文件:当我们创建好一个新文件时,操作系统会找到自己所处的目录下,根据目录的inode编号查找到目录的datablock,然后将文件名和inode映射关系写入目录的数据块中。
- 删除文件:操作系统删除一个文件并不会直接清除数据,而是将标记该文件对应的属性和数据块的相关位图清除(由1置0),所以删除的文件是可以恢复的。
1.3 软硬链接
- 硬链接:通过索引节点(inode)来链接。
- 软链接:通过名字引用另外一个文件。
- 通过
ls -l
可以查看文件的硬链接数:
//创建一个软链接
ln -s 目标文件名 软链接名
//查看文件inode编号
ls -i
上图可以看到软链接和目标文件使用的inode编号是不同的,软链接具有独立的inode编号;并且通过软链接mytest文件可以直接运行目标文件test,软链接相当于一个快捷方式,类似Windows系统,其中所保存的内容是指向文件所在路径。
//创建一个硬链接
ln 目标文件 硬链接名
硬链接不是独立的文件,相当于一个指针,指向某一个inode,而硬链接数就是引用计数,有几个硬链接指向该inode编号硬链接数就是几。
Linux中我们常见目录如下
. :当前目录
.. :上一级目录
这两个目录就是硬链接
软硬链接的区别:软链接是一个独立的文件,有自己独立的inode编号;硬链接不是一个独立的文件,它和目标文件使用的是同一个inode。
1.4 动静态库
- 静态库:程序在编译链接的时候把库的代码链接到可执行文件中,程序运行的时候将不再需要静态库;静态库Linux下后缀为
.a
文件,windows下后缀为.lib
文件。 - 动态库:程序在运行的时候才去链接动态库的代码,多个程序共享使用库的代码。动态库Linux下后缀为
.so
文件,windows下后缀为.dll
文件。在Linux下,程序生成默认是动态连接。 - 动态库可以在多个程序间共享,所以动态链接使得可执行文件更小,节省了磁盘空间。操作系统采用虚拟内存机制允许物理内存中的一份动态库被要用到该库的所有进程共用,节省了内存和磁盘空间。
测试程序
/add.h/
#ifndef __ADD_H__
#define __ADD_H__
int add(int a, int b);
#endif // __ADD_H__
/add.c/
#include "add.h"
int add(int a, int b)
{
return a + b;
}
/sub.h/
#ifndef __SUB_H__
#define __SUB_H__
int sub(int a, int b);
#endif // __SUB_H__
/add.c/
#include "add.h"
int sub(int a, int b)
{
return a - b;
}
///main.c
#include <stdio.h>
#include "add.h"
#include "sub.h"
int main( void )
{
int a = 10;
int b = 20;
printf("add(10, 20)=%d\n", a, b, add(a, b));
a = 100;
b = 20;
printf("sub(%d,%d)=%d\n", a, b, sub(a, b));
}
//生成静态库
ar -rc libmymath.a add.o sub.o
ar是gnu归档工具,rc表示(replace and create)
//查看静态库中的目录列表
ar -tv libmymath.a
t:列出静态库中的文件
//gcc编译链接第三方库
gcc main.c -L. -lmymath
-L 指定库路径
-l 指定库名
将生成的静态库删除后,程序依旧可以正常运行,如下图:
//生成动态库
//shared: 表示生成共享库格式
//fPIC:产生位置无关码(position independent code)
//库名规则:libxxx.so
gcc -fPIC -c sub.c add.c
gcc -shared -o libmymath.so add.o sub.o
同样是上面的add.c和sub.c文件形成.o文件再生成一个动态库,将动态库使用gcc编译main.c文件形成可执行文件,在删除动态库之后,此时与静态库不同,该文件运行出错表示该动态库不存在。
那么链接静态库的时候为什么没有这个问题呢?或者说链接动态库和静态库两者的区别是什么呢?
我们使用的库都是存放在磁盘上的文件,动态链接的可执行程序运行时会将动态链接库加载到内存中,加载到内存中的库代码只有一份,进程通过页表将进程地址空间和库链接起来,当使用动态链接库中的函数时会跳转到库中运行。