前言:
在学习操作系统的过程中,我们常常能听到进程这一概念以及相关的一些知识。例如什么是父进程,什么是子进程,如何创建子进程,如何杀死进程等。这些知识后面会一一介绍,在迈入学习进程的第一步我只需要知道在winds系统下任务管理器中的应用就是进程,而它们都是可执行文件即,所以换句话话说:进程其实就是一个可执行程序的实例
那么进程在系统中到底扮演的是什么角色呢?
进程在系统中的作用是非常重要的,程序的运行需要系统资源的支持,而操作系统中各种各样的程序运行,其资源的合理分配和各种的程序运行,其资源都是合理的分配的各种程序之间的协调都是进程的工作。
在进程概念这一节,会从冯诺依曼体系结构开始说起--为了构建一个整体框架,便于后续的理解,然后我们在深入理解进程概念-PCB,创建进程,掌握僵尸进程和孤儿进程,及其形成原因和危害,了解进程调度,Linux进程优先级,理解进程竞争性与独立性,理解并行与并发。理解环境变量,熟悉常见环境变量及相关指令, 进程地址空间等等。当我们学习这些后,我们会发现进程是对正在运行程序的一个抽象,操作系统其他的所有内容都是围绕着进程的概念展开的。
目录
冯诺依曼体系结构
数学家冯·诺依曼提出了计算机制造的三个基本原则,即采用二进制逻辑、程序存储执行以及计算机由五个部分组成(运算器、控制器、存储器、输入设备、输出设备),这套理论被称为冯·诺依曼体系结构。我们常见的计算机,如笔记本。我们不常见的计算机,如服务器,大部分都遵守冯诺依曼体系。
那么关于冯诺依曼体系,有几个问题:
1.这里的存储器指的是什么?
这里的存储器指的是内存,它的特点是掉电已失。
2.输入/输出设备是外设吗?
运算器和控制器的特点是什么?
运算器+控制器+其他=cup,运算器和控制器的计算速度是特别快
CPU的特点是什么?
CPU只能被动的接受别人的指令或数据,然后执行别人的指令,从而到达计算别人数据的目的。
CPU如何认识别人的指令呢?
CPU拥有自己的指令集,分别是精简指令集和复杂指令集。
我们写代码,编译的本质是什么?
CPU通过自己的指令集去识别二进制可执行文件是在做什么。换句话说就是将二进制可执行文件翻译成CPU的指令集,CPU再进行计算。
CPU的数据从哪儿来?
这里就会有一个例子,就是木桶原理:水桶装水的多少不是取决于最长的木板,而是最短的。
那么CPU也是一样的,CPU在读取或写入的时候,在数据层面上来说,CPU读取数据只和较快的内存打交道。
对冯诺依曼的理解,不能停留在概念上,要深入到对软件数据流理解上,请解释,从你登录上qq开始和某位朋友聊 天开始,数据的流动过程。从你打开窗口,开始给他发消息,到他的到消息之后的数据流动过程。如果是在qq上发 送文件呢?
操作系统(Operator System)
操作系统的概念
是一个进行软硬件资源进行管理的软件
为什么要进行管理?
通过合理的管理软硬件资源,为用户提供良好的(稳定的,高效的,安全的)执行环境
如何理解管理
在日常生活中,老板管理员工,管理的是员工的数据--员工的业绩,工资,姓名,性别等。如果老板看见员工业绩不好,想辞退该员工,那么只需要将该员工的数据从公司删除即可。
管理的本质:是对数据进行管理
这里老板是管理者,他根据数据做了决策,为了能让这个决策生效,所以就有了执行者(组长)
描述与组织
在做决策前需要描述,当描述完后再对描述的对象进行组织
描述就相当于对员工进行描述,在公司可能会制作一个表格,这里我们将当老板是一个懂计算机的,形成一个结构体,结构体里存着员工信息。形成结构体后,通过所学的数据结构将结构体形成链表,对数据进行增删改查的操作。
描述:
组织:
在计算机中,所有管理的本质逻辑:先描述,再组织
理解管理软硬件资源
比如:老板(软件)管理一个公司,不仅仅是管理员工(软件),还要管理公司里的电脑,桌子,板凳(硬件)。
那么操作系统(软件)来说,操作系统既能管理硬件--磁盘,网卡,显卡....(硬件),又能管理软件--进程管理,文件系统,驱动管理...(软件)
系统调用
为什么会产生系统调用?
操作系统不允许用户直接操作各种硬件资源,因此用户程序只能通过系统调用的方式来请求内核为其服务,间接地使用各种资源。
总结就是:操作系统为了安全,通过操作系统接口进行对软硬件的数据的输入/输出。
计算机的软硬件体系结构图
总结
计算机管理硬件
系统调用和库函数概念
进程
上面就说过进程其实就是一个可执行程序的实例,那么程序的本质就是文件,放在磁盘上的
通过冯诺依曼结构体系,我们也大概明白了,可执行程序放在磁盘中,因为磁盘访问太慢,CPU进行数据计算的时候,操作系统会将文件放入内存中,CPU再进行处理。
操作系统对进程的管理
在内存中加载的程序很多,如果不管理,就会出现不知道那个程序先执行,那个程序后执行,如果程序挂掉,或者一直未被执行,那么这个时候是需要操作系统进行管理的。管理--先描述,再组织
先描述
当CPU处理数据前,操作系统会对每个进程的进行管理,形成一个结构体--task_struct,便于操作系统好管理,该结构体就放着进程的各个数据。
再组织
所谓的对进程进行管理,就变成了进程对应的PCB进行相应的管理,PCB为结构体就就转化成对链表的增删改查。操作系统是通过对struct task_struct进行管理,而struct task_struct中相当于有许许多多的该进程对应的代码和属性地址,它通过 struct task_struct* next进行对每个进程向链接。操作系统只对PCB进行管理而不进行计算,当CPU进行计算的时候,操作系统就会把该进程放再前面让CPU进行处理。CPU就通过获取PCB的struct task_struc中的进程地址空间--一段范围,对内存中的该文件的数据进行识别,然后进行计算,进程地址空间后续会讲。
task_ struct内容分类
Linux中的-PCB
进程信息被放在一个叫做进程控制块的数据结构中,可以理解为进程属性的集合,被称之为PBC。Linux操作系统下的PCB是:task_struct--进程控制块(结构体)
进程=内核数据结构(tast_struct)+进程对应的磁盘代码
查看进程
查看进程
myproc.c
#include <stdio.h>
#include <unistd.h>
int main()
{
while(1)
{
printf("我是一个进程!\n");
sleep(1);
}
return 0;
}
Makefile
myporc:myporc.c
gcc -o $@ $^
.PHONY:clean
clean:
rm -f myporc
查看进程脚本
进程在调度运行的时候,进程具有动态属性
见见系统调用
测试代码:
#include <stdio.h>
#include <unistd.h>
#include <sys/types.h>
int main()
{
while(1)
{
printf("我是一个进程!,我的ID是:%d\n",getpid());
sleep(1);
}
return 0;
}
每次重新运行程序pid都会改变
因为每次都需要重新加载到内存,就意味着操作系统都会重新创建task_struct,重新分配pid
查看父进程
#include <stdio.h>
#include <unistd.h>
#include <sys/types.h>
int main()
{
while(1)
{
printf("我是一个进程!,我的ID是:%d\n,父进程ID是:%d\n",getpid(),getppid());
sleep(1);
}
return 0;
}
命令行上启动的进程,一般它的父进程没有特殊情况的话,都是bash
通过系统调用创建进程-fork初识
创建进程
#include <stdio.h>
#include <sys/types.h>
#include <unistd.h>
int main()
{
int ret = fork();
if(ret < 0){
perror("fork");
return 1;
}
else if(ret == 0){ //child
printf("I am child : %d!, ret: %d\n", getpid(), ret);
}else{ //father
printf("I am father : %d!, ret: %d\n", getpid(), ret);
}
sleep(1);
return 0;
}
进程状态
宏观概念
总结:
挂起状态
阻塞和挂起的区别
Linux操作系统的的状态
R运行状态(running): 并不意味着进程一定在运行中,它表明进程要么是在运行中要么在运行队列里。
S睡眠状态(sleeping): 意味着进程在等待事件完成(这里的睡眠有时候也叫做可中断睡眠(interruptible sleep))。
D磁盘休眠状态(Disk sleep):有时候也叫不可中断睡眠状态(uninterruptible sleep),在这个状态的 进程通常会等待IO的结束。
T停止状态(stopped): 可以通过发送 SIGSTOP 信号给进程来停止(T)进程。这个被暂停的进程可以通过发送 SIGCONT 信号让进程继续运行。
X死亡状态(dead):这个状态只是一个返回状态,你不会在任务列表里看到这个状态。
进程状态查看
R状态--运行状态
#include <stdio.h>
#include <unistd.h>
int main()
{
int a=0;
while(1)
{
a=1+2;
};
return 0;
}
S状态--阻塞状态
#include <stdio.h>
#include <unistd.h>
int main()
{
int a=0;
while(1)
{
a=1+2;
printf("当前a的值是:%d\n ",a);
};
return 0;
}
为什么是S状态?
因为printf会访问显示器,显示器是外设的输入输出速度比较慢,CPU就会等待显示器就绪。99%都是在等I/O就绪,1%才是执行打印代码。所以当我们去查的时候,几乎大概率都会是S状态
t状态 --停止状态
进程处于此状态表示该进程正在被追踪,比如 gdb 调试进程:
T状态--停止状态
测试代码
#include <stdio.h>
#include <unistd.h>
int main()
{
int a=0;
while(1)
{
a=1+2;
};
return 0;
}
后台运行
用Ctrl+c不能杀死
总结:
先将该进程暂停后,再运行。进程状态前面的 + 号消失了,该进程变成了后台程序。但是对于后台进程来说,我们只能通过 kill 命令来杀死它。
D状态--深度睡眠
深度睡眠场景:
注意:处于深度睡眠状态的进程既不能被用户杀掉,也不能被操作系统杀掉,只能通过断电,或者等待进程自己醒来。深度睡眠一般只会在高IO的情况发生下,且如果操作系统中存在多个深度睡眠状态的程序,那么说明该操作系统也即将崩溃了。
X--死亡状态
死亡状态代表着一个进程结束运行,该进程对应的PCB以及代码和数据全部被操作系统回收。
Z--僵尸状态
僵死状态(Zombies)是一个比较特殊的状态。当进程退出并且父进程(使用wait()系统调用,后面讲)没有读取到子进程退出的返回代码时就会产生僵死(尸)进程
僵死进程会以终止状态保持在进程表中,并且会一直在等待父进程读取退出状态代码。
所以,只要子进程退出,父进程还在运行,但父进程没有读取子进程状态,子进程进入Z状态
两个特殊的进程
Z(zombie)-僵尸进程
僵尸进程是处于僵尸状态的进程
脚本代码
测试代码
#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
int main()
{
pid_t id = fork();
if(id == 0)
{
//child
while(1){
printf("I am child process, pid: %d, ppid: %d\n", getpid(), getppid());
sleep(5);
exit(1);
}
}
else
{
//parent
while(1)
{
printf("I am parent proceass, pid: %d, ppid: %d\n", getpid(), getppid()); sleep(1);
}
}
return 0;
}
当运行一段时间后的显现,26654进程因为打印变成S状态,由于26655退出了该进程变成僵尸进程。
在上面测试代码中
子进程通过5秒后退出,结合观察得到再子进程(26655)退出后,父进程(26654)变成了僵尸状态。
当我们再观察进程时,我们发现该进程不在了,其原因是关掉了父进程,该失效的子进程被系统回收了。
僵尸进程危害
进程的退出状态必须被维持下去,父进程需要一直知道子进程的状态,随时进行处理。可父进程如果一直不读取,那子进程就一直处于Z状态。
维护退出状态本身就是要用数据维护,也属于进程基本信息,所以保存在task_struct(PCB)中,换句话说,Z状态一直不退出,PCB一直都要维护。
那一个父进程创建了很多子进程,就是不回收,就会造成内存资源的浪费,因为数据结构对象本身就要占用内存,想想C中定义一个结构体变量(对象),是要在内存的某个位置进行开辟空间!--内存泄漏
孤儿进程
测试代码
#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
int main()
{
pid_t id = fork();
if(id == 0)
{
//child
while(1){
printf("I am child process, pid: %d, ppid: %d\n", getpid(), getppid());
sleep(1);
}
}
else
{
//parent
while(1)
{
printf("I am parent proceass, pid: %d, ppid: %d\n", getpid(), getppid()); sleep(1);
}
}
return 0;
}
最开始代码跑起来时,父进程pid=8644,bash=5238;子进程的pid=8645,子进程的父进程8644;他们的运行状态都是S状态--因为在打印就会访问I/O;
当我们销毁子进程时,kill -9 8645;我们发现子打印进程不在了,但是子进程的状态还在,变成了Z状态,这个时候就只能等父进程退出,让操作系统进行回收。
当我们杀掉父进程时,子进程被操作系统领养了,这个过程就叫做孤儿进程
当整个进程变成孤儿了,我们发现我们用Ctrl + c 是不能退出的;我们细心就会发现最开始子进程是S+当变成孤儿进程了,它的状态就是S了。说明了该程序变成了后台程序。
那么这个时候我们就只有用kill -9 16866,杀掉子进程了
进程优先级
基本概念
cpu资源分配的先后顺序,就是指进程的优先权(priority)。
优先权高的进程有优先执行权利。配置进程优先权对多任务环境的linux很有用,可以改善系统性能。 还可以把进程运行到指定的CPU上,这样一来,把不重要的进程安排到某个CPU,可以大大改善系统整体性能。
查看系统进程
在linux或者unix系统中,用ps –l命令则会类似输出以下几个内容:
我们很容易注意到其中的几个重要信息,有下:
PRI and NI
用top命令更改已存在进程的nice:
top
这里是输入nice值为100,我们发现最大区间是99 -19
这里是输入nice值为-100,所以我们发现最小大区间是60-20
经过上面两个例子,我们就发现其实我们只能改变范围是-20至19,一共40个级别
我们再观察一个场景,当我们把nice值改9的时候,我们发现值变成89,那么就得出结论:每次改nice值都在默认nice值的基础上进行改动,而不是修改之后。
其他概念
竞争性: 系统进程数目众多,而CPU资源只有少量,甚至1个,所以进程之间是具有竞争属性的。为了高 效完成任务,更合理竞争相关资源,便具有了优先级 独立性: 多进程运行,需要独享各种资源,多进程运行期间互不干扰 并行: 多个进程在多个CPU下分别,同时进行运行,这称之为并行 并发: 多个进程在一个CPU下采用进程切换的方式,在一段时间之内,让多个进程都得以推进,称之为 并发
进程切换
测试代码
#include <stdio.h>
int main()
{
int a=10;
int b=10;
int c=b+a;
printf("%d\n",c);
a=20;
b=30;
c=b+a;
printf("%d\n",c);
return 0;
}
我们从该代码中不难看出,a,b,c都是临时变量,在以前c语言也知道,他们的数据都是存放在寄存器里的,这里我们发现寄存器里的数据是可以发生改变的。这里我们进入vs2013查看反汇编,数据都是加载到寄存器中的。
在这里有一个概念需要知道:CPU虽然只有一套寄存器,但是寄存器的数据是属于当前进程的。这里的寄存器其实更偏向于寄存器内的数据,而不是寄存器硬件。
在这个过程中运行的时候,占有CPU进程不是一直要占有到进程结束!因为CPU虽然只有一套寄存器而且还要对其他进程进行处理,进程在运行的时候,都会有自己的时间片
操作系统会对每个进程进行设置一个时间片,让CPU去读取进程数据进行处理,就会有进入/退出--进程的切换。在这个切换的过程中寄存器数据需要被保护和恢复。
进程在切换的时候,要进行进程的上下文保护,当进程在恢复运行的时候,要进行上下文的恢复。
在任何时刻,CPU里面的寄存器里面的数据,看起来是在大家都能看到的寄存器上,但是,寄存器内的数据,只属于当前运行的进程!
寄存器被所有进程共享,寄存器内的数据,是每个进程各自私有的---上下文数据
环境变量
基本概念
环境变量(environment variables)一般是指在操作系统中用来指定操作系统运行环境的一些参数 如:我们在编写C/C++代码的时候,在链接的时候,从来不知道我们的所链接的动态静态库在哪里,但是照样可以链接成功,生成可执行程序,原因就是有相关环境变量帮助编译器进行查找。 环境变量通常具有某些特殊用途,还有在系统当中通常具有全局特性
常见环境变量
PATH : 指定命令的搜索路径
我们直接输入test我们发现,编译不起
我们将我们写的可执行程序放入usr/sbin路径中,需要注意的这个文件目录只有root用户可以进去
这种是不支持的,会污染指令池;
一般情况下,我们是选择用
我们发现使用exprot PATH=$PATH: test.o 的路径还是在11-19中
总结:
系统会默认将.bash_profile执行一次,将环境变量导到shell中,也就是说环境变量的配置也就是.bash_profile 再启动的时候加载到bash中
vim .bash_profile--进入.bash_profile
HOME : 指定用户的主工作目录(即用户登陆到Linux系统中时,默认的目录)
用root和普通用户,分别执行 echo $HOME ,对比差异 . 执行 cd ~; pwd ,对应 ~ 和 HOME 的关系
SHELL : 当前Shell,它的值通常是/bin/bash。
和环境变量相关的命令
USER
测试代码
#include<stdio.h>
#include <string.h>
#include <stdlib.h>
#define USER "USER"
int main()
{
char *who =getenv(USER);
if(strcmp(who,"root")==0)
{
printf("hello world\n");
printf("hello world\n");
printf("hello world\n");
printf("hello world\n");
}
else{
printf("权限不足");
}
return 0;
}
这里说明不同的环境变量运用的场景不同
echo- export
测试代码
#include<stdio.h>
#include <string.h>
#include <stdlib.h>
#define USER "USER"
#define MY_ENV "myval"
int main()
{
char *myenv=getenv(MY_ENV);
if(NULL==myenv)
{
printf("%s,not found\n",MY_ENV);
return 1;
}
printf("%s=%s\n", MY_ENV, myenv);
return 0;
}
我们自己定义一个变量,但是我们用echo 查看发现在当前文件能查看,但是用env去找不到。因为是这里相当于是定义的局部变量
本地变量只会在当前进程(bash)内有效
我们用export将本地变量导成环境变量
然后我们在运行test.o,我们发现myval可以被test.c引用
这里我们就得出结论:环境变量具有全局性,是会被子进程下去。
bash是一个系统进程,myval也是一个进程(fork),那么为了满足不同的场景,bash会帮助我们找指令路径,身份认证;
set
用set显示本地定义的shell变量和环境变
unset
env
其他相关指令
通过代码如何获取环境变量
命令行前两个参数
#include <stdio.h>
#include <unistd.h>
#include <string.h>
#include <stdlib.h>
#define USER "USER"
#define MY_ENV "myval"
#define MYPWD "PWD"
int main(int argc, char *argv[])
{
if(argc != 2)
{
printf("Usage: \n\t%s [-a/-b/-c/-ab/-bc/-ac/-abc]\n", argv[0]);
return 1;
}
if(strcmp("-a", argv[1]) == 0)
{
printf("功能a\n");
}
if(strcmp("-b", argv[1]) == 0)
{
printf("功能b\n");
}
if(strcmp("-c", argv[1]) == 0)
{
printf("功能c\n");
}
if(strcmp("-ab", argv[1]) == 0)
{
printf("功能ab\n");
}
if(strcmp("-bc", argv[1]) == 0)
{
printf("功能bc\n");
}
return 0;
}
就好比同一个程序,有多个选项控制
命令行第三个参数
libc中定义的全局变量environ指向环境变量表,environ没有包含在任何头文件中,所以在使用时 要用extern声明。
#include <stdio.h>
#include <unistd.h>
#include <string.h>
#include <stdlib.h>
#define USER "USER"
#define MY_ENV "myval"
#define MYPWD "PWD"
int main(int argc, char *argv[],char *env[] )
{
extern char **environ;
int i=0;
for ( i = 0; environ[i]; i++)
{
printf("%d:%s\n", i, environ[i]);
}
return 0;
}
getenv
#include <stdio.h>
#include <stdlib.h>
int main()
{
printf("%s\n", getenv("PATH"));
return 0;
}
在这个三个获取环境变量的方式:getenv,char*env,extren char **environ中一般推荐使用getenv;因为一般情况我们不需要把全部变量都获取,都是按照自己的需求来。
总结:
在操作系统中用来指定操作系统运行环境的一些参数,我们在启动系统的时候bash就会自动更新该数据,相应的环境变量都有相应的应用场景,一些简单的指令其实就是函数调用环境变量。
程序地址空间
用段代码感受父子进程地址
进程之间是相互独立,都有自己的pdb
测试代码
#include <stdio.h>
#include <unistd.h>
int global_value = 100;
int main()
{
pid_t id = fork();
if(id < 0)
{
printf("fork error\n");
return 1;
}
else if(id == 0)
{
int cnt = 0;
while(1)
{
printf("我是子进程, pid: %d, ppid: %d | global_value: %d, &global_value: %p\n", getpid(), getppid(), global_value, &global_value);
sleep(1);
cnt++;
if(cnt == 10)
{
global_value = 300;
printf("子进程已经更改了全局的变量啦..........\n");
}
}
}
else
{
while(1)
{
printf("我是父进程, pid: %d, ppid: %d | global_value: %d, &global_value: %p\n", getpid(), getppid(), global_value, &global_value);
sleep(2);
}
}
}
else
{
while(1)
{
printf("我是父进程, pid: %d, ppid: %d | global_value: %d, &global_value: %p\n", getpid(), getppid(), global_value, &global_value);
sleep(2);
}
}
sleep(1);
}
运行这段代码后, 我们发现运行一段时间后,子进程和父进程的地址是一样的,但是他们global_value值却发生了改变,这个是为什么呢?
这里我需要想一下,这里地址没变,那么这个地址是什么?如果是物理地址父子进程的必须是一样,不然硬件是无法执行。那么这里就很显然就不是物理地址,就是我们提到的程序地址空间
为了解决父子进程地址一样,值不一样的现象,我们必须将程序地址空间搞清楚
感性理解程序地址空间
每个进程都会认为自己是操作系统的第一把手,只要操作系统批准自己随时都可以独占整个系统资源,又因为进程是独立,每个进程也不会知道自己会有其他进程,但是实际上是有多个进程需要操作系统进行分配,进程是不知道系统资源的多少。为了满足进程独占这个系统资源的需求,操作系统就给进程给了一个虚拟的地址空间(好比花了一个饼)。如果这是进程想全部的系统资源,这个时候操作是老大,他说不,进程还有没有能力取代他。
尽管操作系统就给进程花了一个饼,但是后面操作系统会将这个饼实现,就好像一个公司老板给员工们构建一个蓝图,最后将它实现。老板在画饼之前,可能会需要想好:公司会有好多人,会挣好多钱,在什么时间上市。这个过程在计算机中我们称之为描述,描述我们就可以用数据结构,使用结构体进行描述:
那么操作系统对进程画的饼:是内核的一种数据结构:mm_struct
程序地址空间是什么
我们在学c/c++的时候,指针指向的就是这虚拟地址空间,我们编写代码经过编译,链接后形成可执行文件,前面也讲过进程就是可执行程序的实例,里面设计到的地址,都是虚拟地址空间。
地址空间描述的基本空间大小是字节,32位下就是2的32次方个地址,2的32次方*1字节就等于4GB空间范围。每个字节都有唯一的地址。
程序地址空间--区域划分
如上图,有各种区:代码区,堆区,栈区等等,这些都是一段空间范围,假设:就好比堆区是0x0FFF1111--0x2FFFFFFF这个范围的地址空间。整个地址空间范围:0x00000000--0xFFFFFFFF
如果不是很好理解,在我们中小学时期,女生就很喜欢给同桌的男生画一个三八线,这个时候女生就相当于操作系统,给两个人都有使用的范围。比如一张课桌是100cm,我们用一把尺子来划分区域,女孩的区域是0,60,男孩的区域是60,100,那么计算机是怎么描述这个事情呢?
那么回到进程地址空间的每个区上,我们知道整个区都地址范围,还知道程序地址空间是用结构体描述的,那么我们就大概知道地址空间是什么了--如图。
Linux mm_struct 中关于区域划分的部分源码如下:
如果栈区想扩大,我们只需要控制该结构体的stack_start,stack_end就可以了,stack_star--区域的起始地址,stack_end--区域的结束地址。
所谓区域的调整:本质就是修改各个区域的end or start
为什么会存在进程地址空间
其实我们提到进程地址空间就感到有些迷糊,怎么突然就冒出两个地址空间了呢?一个进程地址空间,一个物理地址空间。他们之间有什么联系呢?进程地址空间是虚拟的,是假的,那它有什么用呢?为什么我们不直接写进物理地址空间呢?这里就展示一下他们大致的链接关系:
1、保证了数据的安全性。
我们为每一个进程都创建一个进程地址空间,然后通过页表来关联虚拟内存与物理内存,这样当我们用户对某一进程的虚拟内存越界访问或者非法读取与写入时,页表或操作系统可以直接进行拦截,从而保证了内存中数据的安全。这套规则是所有进程都需要遵守的。
2、进程地址空间可以更方便的进行不同进程间代码和数据的解耦,保证了进程的独立性。
对于互不相关的两个进程来说,它们都拥有自己独立的地址空间以及页表,页表会映射到不同的物理内存上,磁盘代码和数据加载到内存中的位置也不同,一个进程数据的改变不会影响另一个进程;
对于父子进程来说,由于子进程的 mm_struct 和页表是通过拷贝父进程得到的,所以二者指向同一块物理内存,共用内存中的同一份代码和数据,但即使是这样,父进程/子进程在修改数据是也会发生写时拷贝,不会影响另一个进程,保证了进程的独立性。
这里就回到最开始,就解决了子进程和父进程使用了同一个进程地址空间而数据不一样的问题:
如果进程直接访问物理内存,那么看到的地址就是物理地址,而语言中有指针,如果指针越界了,一个进程的指针指向了另一个进程的代码和数据,那么进程的独立性,便无法保证,因为物理内存暴露,其中就有可能有恶意程序直接通过物理地址,进行内存数据的篡改,如果里面的数据有账号密码就可以改密码,即使操作系统不让改,也可以读取。
3、进程地址空间让进程以统一的视角来看待磁盘代码以及各个内存区域,使得编译器也能够以相同的视角来进行代码的编译工作。
对于进程来说,各个进程都认为自己的数据被放置在对应的区域,比如代码区、全局数据区,但是物理内存实际上是可以非规律存储的;
对于磁盘中的程序以及编译器来说,编译器也是以进程地址空间的规则来进行编译的,所以磁盘中的可执行程序内部也是有地址的,且此地址也是虚拟地址;所以,当我们的程序被加载到内存变成进程后,不仅程序中的各个数据会被分配物理地址,程序的内部同时也存在虚拟地址,使得CPU在取指令进行运算时,拿到的下一条指令的地址也是虚拟地址,这样CPU也可以以 虚拟地址 -> 页表 -> 物理地址 的方式来统一执行工作。
注:严格来说,磁盘中程序内部的地址叫做逻辑地址,但是在上面我们就说过,对于Linux来说,虚拟地址、线性地址、逻辑地址是一样的,都是虚拟地址。