Linux-基础IO
文件的宏观理解:
文件操作的归类认知:
系统角度:
文件IO相关操作
int fputs(const char *s, FILE *stream);
fputs函数是将s所指向的数据往stream中所指向的文件中写
char * fgets ( char * str, int num, FILE * stream )
注:
-
从流中读取字符并将它们作为 C 字符串存储到 str 中,直到读取 (num-1) 个字符或到达换行符或文件结尾,以先发生者为准。
-
换行符使 fgets 停止读取,但它被函数视为有效字符并包含在复制到 str 的字符串中。
-
在复制到 str 的字符之后会自动附加一个终止空字符。
-
fgets 与 get 完全不同:fgets 不仅接受流参数,还允许指定 str 的最大大小并在字符串中包含任何结束的换行符。
fwrite的使用方法
补充:
- 当前路径指的是每个进程,都有一个内置的属性cwd
- fwrite函数如果size_t count传入的数正好将字符串内容全部传入到指定文本中则返回count,否则返回与count不同的数
- fwrite函数传入内容的大小正好是size_t size,和size_t count的乘积
stdin & stdout & stderr
- 任何C程序,都默认打开三个文件分别叫做标准输入(stdin)、标准输出(stdout)、标准错误(stderr)
- 标准输入(stdin)——键盘文件——读方法(read)
- 标准输出(stdout)、标准错误(stderr)——显示器文件——写方法(write)
- Linux下一切皆文件
- 所有的外设硬件,本质是对应的核心操作无外乎是read和write(不同的硬件对应的读写方式是不一样的)
注:
- 可以通过C接口,直接对stdin、stdout、stderr进行读写
- C默认会打开三个输入输出流,分别是stdin, stdout, stderr,这样做便于语言进行上手使用,都有输入输出的需求
- 几乎所有的编程语言都会默认会打开三个输入输出流stdin, stdout, stderr,
- 任何一种编程语言的文件操作相关的函数(库函数)底层都会调用系统调用接口(open、close、write、read,这些在Linux系统下有,但这些接口不具备可移植性)
- 语言上相关文件操作的库函数兼容自身语法特征,系统调用使用成本较高,而且不具备可移植性
系统文件I/O
open
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
int open(const char *pathname, int flags);
int open(const char *pathname, int flags, mode_t mode);
pathname: 要打开或创建的目标文件
flags: 打开文件时,可以传入多个参数选项,用下面的一个或者多个常量进行“或”运算,构成flags。
参数:
O_RDONLY: 只读打开
O_WRONLY: 只写打开
O_RDWR : 读,写打开
这三个常量,必须指定一个且只能指定一个
O_CREAT : 若文件不存在,则创建它。需要使用mode选项,来指明新文件的访问权限
O_APPEND: 追加写
返回值:
成功:新打开的文件描述符
失败:-1
注:
- open 函数具体使用哪个,和具体应用场景相关,如目标文件不存在,需要open创建,则第三个参数表示创建文件的默认权限,否则,使用两个参数的open。
- O_RDONLY、O_WRONLY、O_RDWR……这些都是系统定义的宏,这些参数只占一个int整形中的一个比特位
注:write read close lseek…… 与C语言文件相关接口用法类似
文件描述符fd
注:
- 用户层看到的fd本质是系统中维护进程和文件对应关系的数组的下标
- 所谓的默认打开文件,标准输入,标准输出,标准错误,其实是由底层系统支持的,默认一个进程在运行的时候,就打开了0,1,2
- 对于进程来讲,对所有的文件进行操作,统一使用一套接口(一组函数指针),因此在OS看来一切皆文件
补充:
- 标准输入、标准输出、标准错误在对应的文件描述符为0,1,2,对应C语言层上的是stdin、stdout、stderr
- 所有文件,如果要被使用时,首先必须被打开
- 一个进程可以打开多个文件,系统中被打开的文件一定有多个,多个被打开的文件,一定要被操作系统管理起来的(先描述(struct file(包含了目标文件的基本操作和部分属性)),再组织(双链表))
- 打开文件的过程:先在fd_array数组中找一个最小的没有被使用的数组下标位置,然后把新open出的文件的结构体地址填入到数组中去,对应该地址的下标返回给对应的进程
- fd:本质是进程和文件之间对应关系的数组的下标,有了fd就可以找到打开文件的所有细节
文件描述符的分配规则
总结:
- 文件描述符的分配规则:在files_struct数组当中,找到当前没有被使用的
最小的一个下标,作为新的文件描述符 - Linux进程默认情况下会有3个缺省打开的文件描述符,分别是标准输入0, 标准输出1, 标准错误2
重定向
补充:程序替换的时候不会影响重定向对应的数据结构的数据(程序替换影响的是进程虚拟地址空间部分,而重定向影响的是files_struct部分)
使用 dup2 系统调用
#include <unistd.h>
int dup2(int oldfd, int newfd);
注:
- newfd使oldfd的一份拷贝,不是拷贝fd而是拷贝fd对应的fd_array数组中的内容
FILE
typedef struct _IO_FILE FILE; 在/usr/include/stdio.h
在/usr/include/libio.h
struct _IO_FILE {
int _flags; /* High-order word is _IO_MAGIC; rest is flags. */
#define _IO_file_flags _flags
//缓冲区相关
/* The following pointers correspond to the C++ streambuf protocol. */
/* Note: Tk uses the _IO_read_ptr and _IO_read_end fields directly. */
char* _IO_read_ptr; /* Current read pointer */
char* _IO_read_end; /* End of get area. */
char* _IO_read_base; /* Start of putback+get area. */
char* _IO_write_base; /* Start of put area. */
char* _IO_write_ptr; /* Current put pointer. */
char* _IO_write_end; /* End of put area. */
char* _IO_buf_base; /* Start of reserve area. */
char* _IO_buf_end; /* End of reserve area. */
/* The following fields are used to support backing up and undo. */
char *_IO_save_base; /* Pointer to start of non-current get area. */
char *_IO_backup_base; /* Pointer to first valid character of backup area */
char *_IO_save_end; /* Pointer to end of non-current get area. */
struct _IO_marker *_markers;
struct _IO_FILE *_chain;
int _fileno; //封装的文件描述符
#if 0
int _blksize;
#else
int _flags2;
#endif
_IO_off_t _old_offset; /* This used to be _offset but it's too small. */
#define __HAVE_COLUMN /* temporary */
/* 1+column number of pbase(); 0 is unknown. */
unsigned short _cur_column;
signed char _vtable_offset;
char _shortbuf[1];
/* char* _save_gptr; char* _save_egptr; */
_IO_lock_t *_lock;
#ifdef _IO_USE_OLD_IO_FILE
};
总结:
- FILE结构体中包含了int fileno的成员(也就是系统上的fd文件描述符)
- fopen、fwrite、fread、fclose等f系列的库函数都是由底层open、write 、read、close实现的,通过open的返回值传给fileno,从而对系统调用函数进行封装
- struct FILE内部包含:
-
- 底层对应的文件描述符下标
-
- 应用层C语言提供的缓冲区数据
- 所谓的默认打开文件,标准输入、标准输出、标准错误其实是由底层系统支持的,默认一个进程在运行的时候,就打开了0,1,2
注:系统调用函数与库函数尽量不要混在一起使用,可能会与统一使用的函数的运行结果有所差异
文件系统
磁盘
补充:
- 内存在操作系统的角度使用的时候,基本单位是4KB,但在使用角度是1字节
- 磁盘存储的基本单位是扇区(512字节)(磁盘读取的最小单元)
- 内存与磁盘间IO时,基本单位是4KB,是通过文件系统来完成的
磁盘的划分
我们可以将磁盘想象成磁带(线性结构),将磁盘看成一个线性空间(数组),类型为扇区的数组、数组个数为10亿多
这样划分就不用让OS读取数据时在哪个盘面、哪个磁道、哪个扇区找了,OS与磁盘映射关系可以通过磁盘驱动来完成,这样也就做到强解耦性。无论换机械硬盘还是固态硬盘,OS都不用改变读取磁盘数据的数据结构,只需改变磁盘的驱动程序即可
注:操作系统读取磁盘数据时的下标——LBA
- 磁盘经过在OS中的虚拟化成数组,但是所占空间太大,因此需要进行分区化管理,并对该区域进行格式化(写入文件系统(数据和方法))。eg:Windows中的C盘、D盘……
- 每个分区再进行分组——块组
- Linux系统下支持多种文件系统:Ext2、Ext3、fs、usb-fs、sysfs、proc
inode
- Block Group:ext2文件系统会根据分区的大小划分为数个Block Group。而每个Block Group都有着相同的结构组成。
- 超级块(Super Block):存放文件系统本身的结构信息。记录的信息主要有:bolck 和 inode的总量,未使用的block和inode的数量,一个block和inode的大小,最近一次挂载的时间,最近一次写入数据的时间,最近一次检验磁盘的时间等其他文件系统的相关信息。Super Block的信息被破坏,可以说整个文件系统结构就被破坏了
- GDT,Group Descriptor Table:块组描述符,描述块组属性信息
- 块位图(Block Bitmap):Block Bitmap中记录着Data Block中哪个数据块已经被占用,哪个数据块没有被占用
- inode位图(inode Bitmap):每个bit表示一个inode是否空闲可用。
- i节点表:存放文件属性 如 文件大小,所有者,最近修改时间等
- 数据区:存放文件内容
注:
- Block Group每个块组中都有,但是Super Block并不是每个块组中都有
- 每一个文件都对应一个inode节点
总结:
- 基本上,一个文件一个inode(包括文件)
- inode是一个文件的所有的属性集合(不包含文件名)(空文件也是占据空间的,所有的属性也是数据也要占据空间)
- 真正表示文件的不是文件名,而是文件的inode编号
- inode是可以和特定的数据块产生关联的
- 程序员是通过路径定位的(目录)来定位一个文件,而操作系统是通过目录的Data blocks来确定文件名和inode的映射关系
- 目录是文件,有独立的inode和数据块
- 创建一个新文件主要有一下4个操作:
-
- 存储属性 ——内核先找到一个空闲的i节点。内核把文件信息记录到其中。
-
- 存储数据 ——该文件需要存储在三个磁盘块,内核找到了三个空闲块。将内核缓冲区数据缓冲到磁盘的数据区中
-
- 记录分配情况——文件内容按顺序存放(数据块)。内核在inode上的磁盘分布区记录了上述块列表。
-
- 添加文件名到目录——内核将入口添加到目录文件。文件名和inode之间的对应关系将文件名和文件的内容及属性连接起来。
- 大多是操作系统在同一个目录下是不允许存在同名文件的
- 删除文件不需要清空该文件占据的所有的空间数据(只需将该文件的inode和对应的数据块无效化即可(文件对应inode和Block位图中的数字1设置为0,并将该文件所对应的目录中的数据块的关于该文件内容清空即可)
- Linux下属性和内容是分离的,属性inode保存的(在同一块块组inode编号是不同的,但是跨组的inode编号可能相同),内容Data blocks保存的
补充:
- inode描述了文件大小和指向数据块的指针
- 通过inode可获得文件占用的块数
- 通过inode可实现文件的逻辑结构和物理结构的转换
软硬连接
硬链接:
硬链接的应用场景:方便进行相对路径的路径的设置
因此,可以看出.、…的底层实现是通过硬链接的方式来实现的
注:
- 真正找到磁盘上文件的并不是文件名,而是inode。 其实在linux中可以让多个文件名对应于同一个inode
- 在删除文件时干了两件事情:1.在目录中将对应的记录删除,2.将硬连接数-1,如果为0,则将对应的磁盘释放。
软链接:
注:硬链接是通过inode引用另外一个文件,软链接是通过名字引用另外一个文件
总结:软硬链接的区别:本质是是否是独立文件,有无独立inode;用途:软链接可以指向特定的文件方便进行快速索引,硬链接是能进行相对路径设置
补充:
-
软链接文件是一个独立的文件有自己的inode节点,通过数据中保存的源文件路径访问源文件
-
硬链接是文件的一个目录项,与源文件共用同一个inode节点,直接通过自己的inode节点访问源文件
-
不同分区有可能有不同文件系统,因此硬链接不能跨分区建立;软连接可以跨文件系统进行连接,硬链接不可以
-
当删除源文件时,软链接文件失效
-
ln生成符号链接文件指的是 ln -s 生成软链接文件
文件的ACM
总结:
- Access 最后访问时间
- Modify 文件内容最后修改时间
- Change 属性最后修改时间
文件的ACM的应用场景:
动态库和静态库
静态库与动态库
注:
- ldd可以列出一个程序所需要得动态链接库; file命令用于辨识文件类型
- Linux中,默认情况下形成的可执行程序是动态链接的
- 将库中的我的可执行程序中使用的二进制代码,拷贝进我的可执行程序中——静态链接
- 一般为了更好的支持开发,第三方库或者语言库都必须提供两个库,一个叫做静态库,一个叫做动态库,方便程序员根据需要进行可执行程序的生成
- 动态链接的特点:体积小、节省资源(磁盘、内存),依赖库,一旦丢失可执行程序不可执行
- 静态链接的特点:体积大、浪费资源(磁盘、内存),不依赖库,库丢失,可执行程序不受影响
生成静态库
[root@localhost linux]# ls
add.c add.h main.c sub.c sub.h
[root@localhost linux]# gcc -c add.c -o add.o
[root@localhost linux]# gcc -c sub.c -o sub.o
生成静态库
[root@localhost linux]# ar -rc libmymath.a add.o sub.o
ar是gnu归档工具,rc表示(replace and create)
查看静态库中的目录列表
[root@localhost linux]# ar -tv libmymath.a
rw-r--r-- 0/0 1240 Sep 15 16:53 2017 add.o
rw-r--r-- 0/0 1240 Sep 15 16:53 2017 sub.o
t:列出静态库中的文件
v:verbose 详细信息
[root@localhost linux]# gcc main.c -I -L. -lmymath
-L 指定库路径
-I 指定头文件路径
-l 指定库名
测试目标文件生成后,静态库删掉,程序照样可以运行
注:
- -I:告诉gcc除了默认路径(/usr/include)以及当前路径之外,在指定路径下也找一下头文件
- -L:告诉gcc除了默认路径(/lib/ 、/lib64 、/lib64/libc*)以及当前路径之外,在指定路径下也找一下库文件
- -l库名称:具体链接哪个库
- C语言编译时直接编译不用任何选项:
-
- 库文件和头文件在默认路径下gcc能找到
-
- gcc编译C语言代码默认应该链接libc
- 当自己的可执行程序编译时不想用这些选项:将头文件和库文件分别拷贝到默认路径下——库的安装(第三方库)(使用时必须带上-l库名称)
- 当只有静态库时,没有动态库,用gcc编译(不加-static)会直接用静态链接生成可执行程序
补充:
- 库搜索路径:
- 从左到右搜索-L指定的目录。
- 由环境变量指定的目录 (LIBRARY_PATH)
- 由系统指定的目录
/usr/lib
/usr/local/lib
生成动态库
- shared: 表示生成共享库格式
- fPIC:产生位置无关码(position independent code)
- 库名规则:libxxx.so
补充:
- 动态库被加载在内存中,可以供多个使用库的程序共享映射到自己的虚拟地址空间使用,因此可以减少页面交换以及降低内存中代码冗余,并且因为与源程序模块分离,因此开发模式比较好
- 加载动态库的程序运行速度相对较慢,因为动态库运行时加载,映射到虚拟地址空间后需要重新根据映射起始地址计算函数/变量地址
- 静态库会被添加为程序的一部分进行使用
- 动态库可用节省内存和磁盘空间
- 静态库重新编译,需要将应用程序重新编译
运行动态库
- 拷贝.so文件到系统共享库路径下, 一般指/usr/lib
- 更改 LD_LIBRARY_PATH(当系统重启时使用之前添加的是无效的,应重新添加)
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:路径
- ldconfig 配置/etc/ld.so.conf.d/,ldconfig更新