使用 copy_file_range 复制加速

Copy acceleration with copy_file_range

我正在学习 Linux 中两个文件描述符之间的内核数据传输,遇到了一些我无法理解的事情。这是来自 copy_file_range 联机帮助页

的引述

copy_file_range() gives filesystems an opportunity to implement "copy acceleration" techniques, such as the use of reflinks (i.e., two or more i-nodes that share pointers to the same copy-on-write disk blocks) or server-side-copy

我曾经认为索引节点是由 stat/statx 系统调用返回的东西。 st_ino 类型 typedefed here as

typedef unsigned long   __kernel_ulong_t;

那么它是什么意思"two or more i-nodes that share pointers to the same copy-on-write disk blocks"?

据我了解 copy_file_range 不需要通过用户模式传递数据意味着内核根本不需要从磁盘加载数据(它仍然可能但是它不是必须的)并且这允许通过将操作下推到文件系统堆栈来进一步优化。这涵盖了通过 NFS 进行服务器端复制的情况。

关于其他优化的实际答案从介绍文件的存储方式开始,如果您已经知道可以跳过它。

文件在典型的 Linux FS 中的存储方式分为 3 层:

  1. 某个目录中的文件条目(它本身就是一个包含此类条目列表的文件)。这样的条目本质上是将文件名映射到某个 inode。它是通过存储索引节点号又名 st_ino 来完成的,它实际上是指向某些 table.

  2. 中的索引节点的指针
  3. inode 包含一些共享的(进一步查看)元数据(如 stat 返回的元数据)和一些指向数据块的指针存储实际文件内容。

  4. 实际数据块

因此,例如 hard-link 是某个目录中的一条记录,它指向与 "original" 文件相同的 inode(并在 inode 内递增 "link counter")。这意味着只有文件名(可能还有目录)不同,所有其余数据和元数据都在 hard-link 之间共享。请注意,创建硬 link 是一种非常快速的复制文件的方法。唯一的缺点是这两个文件现在必须永远共享它们的内容,所以这不是真正的副本。但是如果我们通过 reflinks 使用一些 copy-on-write method to fix the "write" part, it would work very nice. This is what some FSes (such as Btrfs) 支持。

这种写时复制技巧的想法是,您可以使用新的适当元数据创建一个新的索引节点,但仍然共享相同的数据块。您还可以在 inode 元数据的 "invisible" 部分中添加两个 inode 之间的交叉引用,以便它们知道它们共享数据块。显然,与真正的复制相比,这个操作是非常快的。同样,只要文件只被读取,一切都会完美无缺。但与 hard-link 不同的是,我们也可以处理将它们视为独立的写入。当执行某些写入时,FS 检查文件(或者更确切地说是 inode)是否真的是数据块的唯一所有者,否则在写入之前复制数据。根据 FS 实现,它可以在第一次写入时复制整个文件,或者它可以存储一些更详细的元数据,只复制必须修改的块,并在文件之间共享其余部分。在后一种情况下,如果写入大小超过一个块,则可能根本不需要复制块。

所以最简单的技巧 copy_file_range() 可以做的是检查整个文件是否真的被复制,如果是,执行上面描述的 reflink 技巧(显然如果 FS 支持它).

如果FS支持数据块上更详细的元数据,一些更高级的优化也是可能的。假设您将文件开头的前 N ​​个字节复制到一个新文件中。然后 FS 可以只共享起始块,可能只需要复制最后一个没有完全复制的块。