git 如何跟踪文件的更改

Question

最长的时间我认为 git 提交保留更改文件的差异而不是副本。我能找到的任何信息都与此相反。我做了一个小实验：

$ git init
$ subl wtf

Here I create a file with 99 999 lines, each of which is foo bar baz #line

$ ls -la
total 1760
drwxrwxr-x 3 __user__ __user__    4096 Aug 13 21:02 .
drwxr-xr-x 3 __user__ __user__    4096 Aug 13 19:57 ..
drwxrwxr-x 7 __user__ __user__    4096 Aug 13 21:02 .git
-rw-rw-rw- 1 __user__ __user__ 1788875 Aug 13 21:02 wtf
$ git add --all
$ git commit -m 'Initial commit'
[master (root-commit) 6ef5084] Initial commit
 1 file changed, 99999 insertions(+)
 create mode 100644 wtf
$ subl wtf
$ git diff
diff --git a/wtf b/wtf
index 7ba3acb..bf7a9ed 100644
--- a/wtf
+++ b/wtf
@@ -14156,7 +14156,7 @@ foo bar baz 14155
 foo bar baz 14156
 foo bar baz 14157
 foo bar baz 14158
-foo bar baz 14159
+foo qux baz 14159
 foo bar baz 14160
 foo bar baz 14161
 foo bar baz 14162
$ git add --all
$ git commit -m 'bar -> qux on #14159'
[master 1b5ab4b] bar -> qux on #14159
 1 file changed, 1 insertion(+), 1 deletion(-)
$ subl wtf
$ git diff
diff --git a/wtf b/wtf
index bf7a9ed..1aeeaa3 100644
--- a/wtf
+++ b/wtf
@@ -14156,7 +14156,7 @@ foo bar baz 14155
 foo bar baz 14156
 foo bar baz 14157
 foo bar baz 14158
-foo qux baz 14159
+xyz abc baz 14159
 foo bar baz 14160
 foo bar baz 14161
 foo bar baz 14162
$ git add --all
$ git commit -m 'foo qux -> xyz abc on #14159'
[master 85ccf97] foo qux -> xyz abc on #14159
 1 file changed, 1 insertion(+), 1 deletion(-)
$ ls -la
total 1760
drwxrwxr-x 3 __user__ __user__    4096 Aug 13 21:02 .
drwxr-xr-x 3 __user__ __user__    4096 Aug 13 19:57 ..
drwxrwxr-x 9 __user__ __user__    4096 Aug 13 21:05 .git
-rw-rw-rw- 1 __user__ __user__ 1788875 Aug 13 21:04 wtf

即使在有冲突的不同分支上提交也没有改变这种情况。

如果 git 确实在每次提交时都保留了所有更改文件的副本，为什么 space 使用没有重大变化？

Answer 1

Git 逻辑上 在历史记录中存储一组不同的所有文件内容。这意味着如果在 10 MB 的文件中更改一个字符，则文件的全部内容将具有两个不同的对象 ID。但是，引擎盖下有很多优化以确保类似的对象以增量存储。

Answer 2

至少有两种机制可以减少 Git 的对象数据库所需的总存储量。首先，每个对象都被单独压缩。其次，对象被集中到对象 "packs" 中，将对象与增量相关联，为类似对象节省更多 space。 ProGit中有一个chapter on packfiles，很有启发性。

Answer 3

git 有对象数据库。有一种对象 "blob" 由其内容的 sha1 标识。因此，这意味着，如果您在存储库中的任何位置（branch/point of history/directory/etc）中有一个内容相同的文件，它将仅在数据库中存储一次。

数据库中有两部分，objects/??/* 文件是单独的对象。 IE。如果你有一个只有一行差异的大文件的两个版本 - 它将被存储两次，在两个不同的文件中（使用简单的 lzma？压缩）。

然后，如果 git 认为 objects 目录增长太多，它会运行垃圾收集。此过程的步骤之一 - 重新包装。它在使用巧妙的增量压缩算法的 objects/pack/ 文件夹中创建大型包文件，并且它不是在特定文件的历史上工作，而是在整个对象数据库的范围内工作，所以这意味着即使一些完全不相关的文件偶尔看起来相似，它们可以打包为彼此的增量。

因此，考虑到历史记录中的最新更改，可以在每个 git gc 命令后以不同方式重新压缩增量。

此外，object packs 与 loose objects 只是物理存储细节，当您每天使用 git 时，这些细节是完全透明的。例如。做 log cherry-pick、merge 等是在使用提交的完整快照进行操作。所以，如果你正在做 diff，它只是比较两个版本的 directory/files，生成你一个 patch/diff.

与其他 VCS 相比，这种方法非常独特。例如。 Mercurial 为每个文件单独存储不可变的增量日志，而 Subversion 为整个存储库存储增量。它会影响系统的工作方式——物理存储没有被抽象出来，它会造成一些重大限制，而 git 允许非常灵活的工作流程和算法，同时保持存储库的大小非常小

Answer 4

每次文件更改时，Git 都会在其数据库中存储该文件的新副本。提交存储对该提交跟踪的文件的最新版本的引用。这意味着创建提交时，它使用其父存储的引用存储未更改的文件，并使用对已更改文件的新添加版本的引用。

定期（或按需使用 git gc），通过创建包含给定集合中每个文件的最新版本以及 "reverse diffs" 的包文件来压缩数据库可用于根据需要重建旧版本。

git 如何跟踪文件的更改

How does git track changes to files

git

internals