为什么就地编辑文件比创建新文件慢?

Why is in-place edditing of a file slower than making a new file?

如您在 回答中所见。就地编辑文本文件似乎比创建新文件、删除旧文件并从另一个文件系统移动临时文件并重命名要花费更多的时间。更不用说在同一个文件系统中创建一个新文件并重命名它了。我想知道这背后的原因是什么?

因为当您就地编辑文件时,您打开同一个文件进行写入和读取。但是当你使用另一个文件时。您只读取一个文件并写入另一个文件。 当您打开文件进行读取时,它的内容会从磁盘移动到内存。然后,当您要编辑文件时,您会更改磁盘中文件的内容,因此应更新内存中的内容以防止数据不一致。但是当你使用一个新文件时。您不必更新内存中第一个文件的内容。您只需读取整个文件一次并写入另一个文件一次。并且不要更新任何东西。删除文件也需要很短的时间,因为您只是将它从文件系统中删除,而不是将任何位写入文件在磁盘中的位置。重命名也是如此。移动也可以非常快地完成,具体取决于文件系统,但很可能不如删除和重命名快。

还有一个更重要的原因

当您从第一行的开头删除数字时,所有其他字符都必须向后移动一点。然后,当您再次从第二行中删除数字时,该点之后的所有字符都必须移回,因为字符必须是连续的。如果您只想更改一些字符,就地编辑会更快一些。但是由于每次删除时您都在更改文件的长度,因此所有其他字符都必须移动,这会花费很多时间。它并不完全像这样,它要复杂得多,具体取决于您的操作系统和文件系统的实现,但这就是它背后的想法。这就像数组操作。当您从数组中删除单个元素时,您必须移动数组的所有其他元素。因为它是一个数组。相反,如果您要从链表中删除一个元素,则不需要移动其他元素,但文件的实现方式类似于数组,所以就是这样。

虽然 tgwtdt 的回答可能会提供一些很好的见解,但它并不能解释一切。这是一个 140MB 文件的反例:

$ time sed 's/a/b/g' data > newfile
real    0m2.612s

$ time sed -i -- 's/a/b/g' data 
real    0m9.906s

为什么这是一个反例,你可能会问。因为我将 a 替换为 b,这意味着替换文本具有相同的长度。因此,不需要移动任何数据,但仍需要大约四倍的时间。

虽然 tgwtdt 很好地解释了为什么 in place 通常需要更长的时间,但对于一般情况来说,这是一个不能 100% 回答的问题,因为它取决于实现。