Git 合并内部结构

Git merge internals

这可能会成为一个很长的问题,所以请耐心等待。

我在这里遇到了 git 合并决定的令人难以置信的解释:How does git merge work。我正在尝试以这种解释为基础,看看以这种方式描述 git 合并是否有任何漏洞。本质上,合并文件中一行是否出现的决定可以用一个真值 table:

来描述

W: 原始文件, A:爱丽丝的分店, B: Bob 的分行

基于这个道理table,想出一个基于线的算法来构造D就很简单了:通过查看A和B中对应的线逐行构造D,并根据决策做出决定真相-table.

我的第一个问题是案例 (0, 0, 1),根据我在上面发布的 link,似乎表明虽然该案例实际上是冲突,但 git 通常会处理无论如何删除该行。这种情况真的会导致冲突吗?

我的第二个问题是关于删除案例——(0, 1, 1) 和 (1, 0, 1)。直觉上,我觉得这些案例的处理方式可能会导致问题。假设 W 中有一个函数 foo()。这个函数实际上从未在任何代码段中调用过。假设在分支 A 中,Alice 最终决定删除 foo()。但是,在分支 B 中,Bob 最终决定使用 foo() 并编写了另一个调用 foo() 的函数 bar()。直觉上,基于 truth-table,合并后的文件似乎最终会删除 foo() 函数并添加 bar() 并且 Bob 会想知道为什么 foo() 不再起作用了!这可能让我认为我为 3 路合并推导出的 truth-table 模型可能不完整并且遗漏了什么?

My first question is the case (0, 0, 1)

像 darcs 这样的一些版本控制系统认为在两个分支中进行相同的更改(在您的情况下是删除)并合并它们应该会导致冲突。典型的例子是当你有两次

-#define NUMBER_OF_WHATEVER 42
+#define NUMBER_OF_WHATEVER 43

合并算法无法为您知道您是希望合并产生 43(因为这是两个版本都同意的值)还是 44(因为 42 应该递增两次)。

但是,将这种情况视为冲突会导致很多虚假冲突。例如,如果一个人从 master 分支中挑选一个合并到一个维护分支,然后将维护分支合并到 master 中,那么被挑选修改的每一行都会导致冲突。而且冲突标记会很奇怪,因为它们会在冲突标记的两边显示相同的内容,比如

<<<<<<< HEAD
Hello world
=======
Hello world
>>>>>>> 77976da35a11db4580b80ae27e8d65caf5208086

因此,大多数版本控制系统,包括Git,选择在合并双方引入相同更改时考虑不冲突。

My second question is about deletion cases— (0, 1, 1) and (1, 0, 1).

你描述的是语义冲突。它们在理论上确实存在,您甚至可以找到合并可编译但与被合并的分支相比具有不同语义的极端情况。没有魔法,没有文本合并算法可以检测或解决语义冲突。你必须和他们一起生活,或者独自工作。

实际上,它们很少见。每天可能有数百万人使用版本控制系统并与之共处。大多数人可能从未想过这个问题会存在。

不过,一个好的组织可以大大降低语义冲突的风险。如果你检查你的代码在合并后仍然可以编译,你就可以避免大约 90% 的语义冲突,如果你有一个自动测试套件,那么你必须找到一个语义冲突,它会产生一个你的测试套件没有覆盖的错误,以便它有问题。

实际上,语义冲突并不是版本控制系统特有的。另一种不使用合并的场景是

  • 我看了代码,看到一个函数f()
  • 我的同事删除了函数f()
  • 正在研究最新版本,已经没有f()了,我还记得有一个功能f(),我尝试使用它。

总之,不要害怕语义冲突。

这里有一个 sample repository 供您自己测试不同的合并行为。它有很多分支,有各种变化可以相互合并。

随意分叉或克隆它:

git clone https://github.com/NickVolynkin/GitMergeResearch.git

我很快就会 post 我的结果。