哈希函数 MD5 30 长度

Question

我使用 MD5

从给定的字符串生成 32 位唯一哈希码

    MessageDigest.getInstance("MD5")
             .digest("SOME-BIG-STRING").map("%02x".format(_)).mkString

    //output: 47a8899bdd7213fb1baab6cd493474b4

是否可以生成 30 位而不是 32 位，如果这样做会有什么问题？

使用任何其他哈希算法来支持 30 个字符长和 1 万亿个唯一字符串冲突概率？

安全性并不重要，唯一性是必需的。

Answer 1

Is it possible to generate 30 digit long instead of 32 digit and what will be problem if it do so?

是。
您将碰撞概率提高了 2 倍⁸。

Any another hash algorithm to use to support 30 character long and 1 trillion unique strings collision probability ?

可能吧。取由任何加密强度哈希算法生成的哈希的前 30 个十六进制数字具有大致等效的唯一性属性。

Security is not important, uniqueness is required ?

在这种情况下，MD5 不再被认为是安全的这一事实没有实际意义。（请注意，MD5 不再被认为是安全的原因是设计碰撞在计算上是可行的；即找到第二个输入给定的 MD5 哈希。）

但是，无法保证哈希值的唯一性。即使使用生成 N 位哈希的“完美”加密强度哈希函数，任意 2 个任意（不同）输入发生冲突的概率也是 2^N 中的一个。对于足够大的 N 值，概率非常小。但它永远不会为零。

Answer 2

对于从字符串生成唯一 ID，散列函数永远不是正确的答案。

您需要定义文本字符串（例如“v1.0.0”）到 30 个字符长的字符串（例如“123123...”）的一对一映射。这也称为双射，尽管在您的情况下是射入（从输入到输出的简单一对一映射，不一定上）可能就足够了。作为撰写本文时的另一个答案，哈希函数不一定确保此映射，但还有其他可能性，例如全周期 linear congruential generators （如果它们采用种子，您可以映射一个 -对一到输入字符串值）或其他可逆函数。

但是，如果可能的输入字符串集大于可能的输出字符串集，则您无法将所有输入字符串与所有输出字符串一对一映射（不创建重复项），因为pigeonhole principle.

另见这个问题：How to generate a GUID with a custom alphabet, that behaves similar to an MD5 hash (in JavaScript)?。

确实，如果使用散列函数，冲突的可能性将接近于零，但绝不会完全为零（这意味着重复的风险将始终存在）。如果我们以MD5为例（产生2^128个hash码中的任何一个），那么粗略地讲，只有在产生2^64个ID之后，意外碰撞的可能性才变得不可忽略，这远远超过1万亿

但是 MD5 和其他哈希函数并不是做你想做的事情的正确方法。接下来讨论这个。

如果您不能将输入字符串的格式限制为 30 位，也不能将它们压缩到 30 位或更少，并且不能容忍重复的风险，那么下一个最好的办法是创建一个数据库 table 将您的输入字符串映射到随机生成的 ID。

此数据库 table 应该有两列：一列包含您的输入字符串（例如“<UUID>-NAME-<UUID>”），另一列包含随机生成的与这些字符串关联的 ID。由于随机数不能确保唯一性，每次创建新的随机 ID 时都需要检查随机 ID 是否已存在于数据库中，如果存在，则尝试使用新的随机 ID（但有可能重复发现会随着 ID 大小的增长而缩小）。

哈希函数 MD5 30 长度

Hash Function MD5 30 length

java

md5

scala