Linux中的进程之间如何共享代码段?

How is the code segment shared between processes in Linux?

我已经阅读了在 Linux 中分叉新进程时发生的写时复制原则。

我也看过这样一个事实,如果一个程序的多个实例同时运行,那么在内存中只能找到一个程序代码实例。

我想知道这是否是写时复制原则的直接结果,如果不是,确保没有不必要的程序代码副本驻留在内存中的过程是什么?

程序代码(有时称为程序文本)的共享依赖于另一种机制:内存映射文件

理解这一点的关键是,linker 不需要修改程序代码来将 link 解析为外部符号。因此,操作系统只处理程序文本的只读副本,并且本质上是可在进程之间共享的。

在 运行-time link 运行你的程序时,动态 linker 调用 mmap() 为你的程序的 space 创建虚拟地址 space =11=](以及它使用的任何共享库)。在这个阶段,文件没有真正的内存页面支持。相反,当程序开始执行时,读取文件的虚拟地址 space 会导致页面错误,并且操作系统会分配一个页面,然后从磁盘填充它,或者如果该页面已经在内存中,映射到那个。

了解更多信息的好地方是 Andrew Tanenbaum 的 Modern Operating Systems

I was wondering whether this is a direct consequence of the copy-on-write principle or not

不,不是。 FWIW,您可以在没有 COW 的情况下共享代码段,也可以在没有共享代码段的情况下共享 COW。是独立的。

如果通过 COW 实现共享程序代码,那么只有相关进程才能从中受益。

例如,如果进程 A 分叉两次并创建进程 BC,然后 BC 调用七个进程之一exec 在同一个二进制文件上运行,然后你 可以 说代码段是共享的,因为 COW - 因为代码段在执行期间从不写入,并且被映射为读取 -只是,那么它必须自动分享,对吧?

如果您从另一个 shell 启动同一个可执行文件怎么办? (或者其他一些不相关的进程分叉并执行相同的程序?它不一定是 shell...)

如果代码段共享是 COW 的结果,在这种情况下我们不会从共享代码段中获益,因为进程是不相关的(所以没有与其他实例开始的 COW 共享页面).

相反,代码段与内存映射文件共享。在内存中加载新的可执行文件时,调用 mmap(2) 将二进制文件的内容映射到内存中。

and if it is not, what is the process which ensures that no unnecessary copies of the program's code reside in the memory?

具体的实现细节取决于操作系统,但并不复杂。从概念上讲,mmap(2) 将文件映射到内存中,因此您只需要在底层文件表示上保留一些状态,以跟踪该文件的哪些(如果有)内存映射处于活动状态。此类信息通常保存在文件的 inode.

中 例如

Linux,将内存地址为space的文件与struct inodei_mapping字段关联起来。因此,当第一次在二进制文件上调用 mmap(2) 时,会分配物理内存页来保存信息,并设置该文件 inode 的 i_mapping 字段;稍后的调用将使用 i_mapping 字段并意识到有一个地址 space 与此 inode 关联,并且因为它是只读的,所以没有分配物理页面,因此所有内容最终都被共享。请注意,每个进程的虚拟内存可能不同,尽管它引用相同的物理页面(这意味着内核至少会分配和更新每个进程的页表,但仅此而已)。

The inode structure is defined in fs.h - 我只能猜测其他 UNIX 变体以类似的方式执行此操作。

当然,只要使用相同的二进制文件,这一切都有效。如果您复制二进制文件并分别执行两个副本,由于显而易见的原因,代码段将不会共享。