要散列的文本的长度是否会影响冲突的概率？

Question

我想用 sha1 和独特的 salt 制作独特的代码（绝对独特，因为我使用 table 的 id）。我需要 7 个字符的唯一代码，但我不能使用 table 中的 id，因为它超过 7 个字符。所以我认为最好使用 sha1 并将散列文本的前 7 个字符作为我的唯一代码。待哈希的文本长度是否影响碰撞概率？

例如：

textA = "myId:12345678"
textB = "myId:12345678, myId2:87654321"

使用长短文本（例如textA）还是文本（例如textB）更好？还是文字长度没有影响？

Answer 1

散列您的唯一 ID 是个坏主意。别这样。

如果您的 ID 由 7 个十六进制数字组成，则您可以使用 268,435,456 个唯一值。如果您散列这些值并将结果截断为 7 个十六进制数字，则 the probability of a collision rises very quickly（2,322 次输入后概率为 1%，19,290 次输入后概率为 50%，35,159 次输入后概率为 99%）。

如果您的目标是伪装这些 ID 值，使对手无法弄清楚实际的顺序值是什么，请改用 format-preserving encryption。

编辑： 如果您需要安全的东西，您可以尝试使用像 AES 这样的加密函数作为循环函数来实现 Feistel network。（AES 可能有点矫枉过正，但这可以在大多数语言中基于现有原语用几行代码实现。）如果你只想混淆 ID，你可以使用像这样更简单的东西：

def obfuscate_id(id, key):
    # Transforms id using a 28-bit key
    a = 81883721   # (random prime congruent to 1 mod 4)
    c = 2791751    # (any odd number will do)
    m = 2**28      # (modulus for 7-digit hex values)
    return ((id ^ key) * a + c) % m

要散列的文本的长度是否会影响冲突的概率？

Does the length of the text to be hashed affect the probability of a collision?

cryptography

sha1

hash-collision