我真的需要在 .gitattributes 中指定所有二进制文件吗

Do I really need to specify all binary files in .gitattributes

我读过 Git documentation 表明我可以明确地将某些文件设置为文本,因此它们的行尾会自动更改或作为二进制文件以确保它们不受影响。

不过,我还读到 Git 非常擅长检测二进制文件,这让我觉得这不是必需的。所以我的问题是我真的需要为存储库中的每个文件扩展名指定这些显式设置吗?我看到有人建议对所有图像文件扩展名都这样做。

# Set the default behavior, in case people don't have core.autocrlf set.
* text=auto

# Explicitly declare text files you want to always be normalized and converted
# to native line endings on checkout.
*.c text
*.h text

# Denote all files that are truly binary and should not be modified.
*.png binary
*.jpg binary
通常,

Git 可以很好地检测文件是文本文件还是二进制文件,因此您可能不需要明确设置任何内容。正如您所指出的,设置默认值 * text=auto 无论如何都是一个好主意。

但是,如果您或从事该项目的任何人使用的是 UTF-16 格式的文件,最好在这些文件上显式设置 text 属性以及 working-tree-encoding 属性,因为 Git 会注意到其中的 NUL 字节并将它们视为二进制。

您还应该将任何您认为可能被误检测为文本的文件类型指定为二进制文件。例如,如果您有一些图像格式或文件仅包含可打印的 ASCII 字节,Git 可能会将其误检测为文本。您希望明确指定这些文件以避免混淆。只有您知道存储库中的哪些文件可能会遇到该问题。

Git 将检查文件的前 8,000 个字节以查看它是否包含 NUL 字符。如果是,则该文件被假定为二进制文件。

来自git's source code

#define FIRST_FEW_BYTES 8000
int buffer_is_binary(const char *ptr, unsigned long size)
{
    if (FIRST_FEW_BYTES < size)
        size = FIRST_FEW_BYTES;
    return !!memchr(ptr, 0, size);
}

对于文本文件,除非出于某种原因有意插入 NUL 字符,否则它们会被正确猜出。对于二进制文件,前 8,000 个字节很可能至少包含一个实例。

在大多数情况下,您不需要明确声明文件的类型(我想我从来没有声明过)。实际上,如果您 运行 遇到问题,只需声明一个特定文件即可。