Github 2023-12-19开源项目日报 Top10-CFANZ编程社区

int g_unval;
int g_val = 100;

int main(int argc, char *argv[], char *env[])
{
    printf("code addr:\t%p\n", main);//验证正文代码
    printf("init data addr:\t%p\n", &g_val);//验证初始化数据（全局）
    printf("uninit data addr: %p\n", &g_unval);//验证未初始化数据（全局）

    char *heap = (char*)malloc(20);//如图先创建的动态内存应该在堆底
    char *heap1 = (char*)malloc(20);//所以heap的地址应为最小
    char *heap2 = (char*)malloc(20);//heap3的地址应为最大
    char *heap3 = (char*)malloc(20);//一会观察是否是这样

    printf("heap addr: %p\n", heap);//验证堆区（动态内存）
    printf("heap1 addr: %p\n", heap1);
    printf("heap2 addr: %p\n", heap2);
    printf("heap3 addr: %p\n", heap3);

    printf("stack addr: %p\n", &heap);//验证栈区（指针变量）
    printf("stack addr: %p\n", &heap1);//如图先创建的heap指针应该在栈空间中地址最大
    printf("stack addr: %p\n", &heap2);//所以&heap应为最大
    printf("stack addr: %p\n", &heap3);//&heap3应为最小

    for(int i = 0; argv[i]; i++)//验证命令行参数
    {
        printf("argv[%d]=%p\n", i, argv[i]); 
    }
    for(int i = 0; env[i]; i++)//验证环境变量
    {
        printf("env[%d]=%p\n", i, env[i]);
    }

    return 0;
}

打印出来看看是不是这样呢？

1.2利用fork函数观察当子进程修改某个共享变量时父子进程分别读取到的值和地址

既然我们之前在进程概念的学习中创建过子进程，那我们刚好可以观察一下当子进程修改某一共享变量时，父子进程读取到的该变量的值是否会发生改变，该变量的地址又呈现出什么样的内容？

int g_val = 100;

int main()
{
    pid_t id = fork();
    if(id == 0)
    {
        int cnt = 0;
        //子进程
        while(1)
        {
            printf("child, pid: %d, ppid: %d, g_val: %d, &g_val: %p\n", 
                    getpid(), getppid(), 
                    g_val, &g_val);//获取子进程信息以及变量g_val的值与地址
            sleep(1);
            cnt++;
            if(cnt == 2)//2s后修改全局变量g_val的值为200
            {
                g_val = 200;
                printf("child change g_val: 100->200\n");
            }
        }
    }
    else
    {
        while(1)
        {
            printf("father, pid: %d, ppid: %d, g_val: %d, &g_val: %p\n", 
                    getpid(), getppid(), 
                    g_val, &g_val);//获取父进程信息以及变量g_val的值与地址
            sleep(1);
        }
    }
}

解析代码：2秒之前父子进程读取变量g_val的值，2秒后子进程对该变量进行修改，观察修改之后父子进程读取该变量的值如何变化，并且是否符合我们之前所讲的写时拷贝，是否会拷贝一份给自己再修改？

我们发现确实，当子进程对变量进行修改时，子进程对应的g_val发生了改变，而父进程没有改变，进程之间确实具有独立性。

可是最令人费解的是，父子进程读取该变量的地址竟然相同！？

这也就证实了之前我们所学习的所谓的内存分布图是假的，打印出来的地址也是假的，因为如果是物理内存地址，同一物理地址是不可能存放两个值的！！

2.进程地址空间

现在你就知道了文章开头给出的图片根本不是什么物理内存分布图，而是进程地址空间分布图。

完了，我们之前所学被颠覆了，那物理内存到底在哪里啊，进程是如何访问到物理内存的？

所以我们继续往下看：

2.1操作系统是如何建立起进程与物理内存之间的联系的呢？

首先：每一个进程都会存在一个进程地址空间，操作系统如何管理这些进程地址空间呢？

先描述，再组织。

所以进程地址空间本质上就是一种数据结构，PCB中会有一个指针指向该数据结构，该数据结构中存储的就是对应的虚拟地址，所以操作系统对进程地址空间的管理也就变成了对该数据结构的管理。

当创建子进程时，子进程会继承父进程的进程地址空间、页表等。

所以我们说父子进程代码共享，数据共享，是因为他们的页表是相同的。

但对共享的变量进行修改时，会发生写时拷贝，拷贝到的代码和数据也是新开辟在物理内存上的，此时子进程只需要修改页表，虚拟地址不变，而物理地址则是新开辟的物理地址。

所以才会出现虚拟地址相同，而物理地址不同的情况。

2.2什么是进程地址空间？

每一个进程都会存在一个进程地址空间，在32位操作系统下，该空间的大小为[0,4]GB。

上面说到：进程地址空间其实就是一个数据结构，那该数据结构中都存在有哪些内容呢？

查看Linux内核源码：

我们找到mm_struct的定义：

struct mm_struct
{
    struct vm_area_struct* mmap;    
    struct rb_root mm_rb;           
    struct vm_area_struct* mmap_cache;    

    //....

    unsingned long start_code, end_code, start_data, end_data;  
    //代码段的开始start_code ，结束end_code，数据段的开始start_data，结束end_data

    unsigned long start_brk, brk, start_stack;    
    //start_brk和brk记录有关堆的信息，
    //start_brk是用户虚拟地址空间初始化，
    //brk是当前堆的结束地址，
    //start_stack是栈的起始地址

    unsigned long arg_start, arg_end, env_start, env_end;     
    //参数段的开始arg_start，结束arg_end，
    //环境段的开始env_start，结束env_end

}

那么如何理解各个数据存放的区域呢，如上面的源码所示：就是利用首尾的位置信息。

区域划分的本质就是区域内的地址我们可以使用。

可是我们又知道进程地址空间是不具备保存实际的代码和数据的能力的。

这些代码和数据实际是放置在物理内存上的。

所以就需要页表的存在来将虚拟地址转化为实际的物理内存地址。

2.3为什么有进程地址空间和页表

因为有了进程地址空间和页表，物理内存空间上不连续、无序的空间就可以通过页表这一映射关系联系在一起，让进程以统一的视角看待内存。
有了进程地址空间和页表后，每个进程都认为自己在独占内存，这样能更好的保障进程的独立性以及合理使用内存空间（当实际需要使用内存空间的时候再在内存进行开辟），并能将进程管理与内存管理进行解耦合。
地址空间+页表的设计是保护内存安全的重要手段！