为什么同一文件的两个 tarball 的 md5 散列不同?

Why do the md5 hashes of two tarballs of the same file differ?

我可以运行:

echo "asdf" > testfile
tar czf a.tar.gz testfile
tar czf b.tar.gz testfile
md5sum *.tar.gz

结果是 a.tar.gzb.tar.gz 有不同的 md5 哈希值。的确,它们是不同的,diff -u a.tar.gz b.tar.gz 证实了这一点。

我需要向 tar 传递哪些额外的标志,以便它的输出随着时间的推移与相同的输入保持一致?

tar czf outfile infiles 等同于

tar cf - infiles | gzip > outfile

文件不同的原因是因为gzip将其输入文件名和修改时间放入压缩文件中。输入为管道时,文件名为空字符串,修改时间为当前时间

但它还有一个 --no-name 选项,告诉它不要将名称和时间戳放入文件中。因此,如果您显式编写扩展命令,而不是使用 tar-z 选项,则可以使用此选项。

tar cf - testfile | gzip --no-name > a.tar.gz
tar cf - testfile | gzip --no-name > b.tar.gz

我在 OS X 10.6.8 上测试过它并且有效。

对于 MacOS:

man tar 中,我们可以查看 --options 部分,在那里我们会找到 !timestamp 选项,它将从我们的 gzip 存档中排除时间戳。用法:

tar --options '!timestamp' -cvzf archive.tgz filename

对于相同名称的相同文件,它将产生相同的 md5 总和