为什么 String hashCode 没有大小限制？

Question

这让我困扰了一段时间，但我还没有找到任何令人信服的答案，那么为什么 hashCode 中的函数 Java String 没有任何大小限制？下面是我发现的实现 here:

public int hashCode() {
    int h = hash;
    if (h == 0 && value.length > 0) {
        char val[] = value;

        for (int i = 0; i < value.length; i++) {
            h = 31 * h + val[i];
        }
        hash = h;
    }
    return h;
}

首先，我了解临时变量 h 的用法，这在多线程中使用 String 时很有意义。其次我们都知道上面的实现不能避免散列冲突（none hashCode实现可以），所以基本上我们应该把这个函数当作"performance improvement"而已，这对于哈希表或类似结构很有用。

如果是这样，那为什么允许我们有例如100 MB 字符串，我们根据 all 计算哈希值是字符吗？增加一些限制不是更有意义吗？ 32 / 128 甚至可能是 1024 个字符但不是完整的 value.length？是的，如果我们有两个不同的字符串，它们的前缀与我们的限制一样长，那么我们就会发生哈希冲突，但是我们无论如何都无法避免冲突，所以从性能的角度来看我个人会将 for 循环更改为：

int limit = value.length > 32 ? 32 : value.length;
for (int i = 0; i < limit; i++) {
    h = 31 * h + val[i];
}

你怎么看？

Answer 1

几个可能的原因 spring 需要注意：

字符串仅在开头或结尾处变化是很常见的，例如所有 Whosebug 问题 URL 都以“https://whosebug.com/questions/”开头。因此，将 hashCode 限制为仅字符子集会导致不必要的冲突，并且对于某些字符串集会导致许多冲突。您提出的算法将导致每个 Whosebug 问题 URL 具有相同的 hashCode！
hashCode 速度快且易于记忆，目前尚不清楚将 hashCode 限制为某个恒定长度是否会带来显着的性能改进，尤其是因为它总是在创建 String 之前（一个 O(n) 操作), 并且通常随后调用 equals (也是 O(n)).
遗留原因。 String.hashcode指定使用特定算法。现有应用程序依赖于此规范。即使这种优化现在被认为是必要的，也无法在不破坏向后兼容性的情况下进行。

为什么 String hashCode 没有大小限制？

Why String hashCode doesn't have size limitation?

java

hash

hashcode