Hashmap loadfactor - 基于占用的桶数或所有桶中的条目数?
Hashmap loadfactor - based on number of buckets occupied or number of entries in all buckets?
我试图了解在超过占用的桶数或所有桶中的条目总数时会发生 hashmap 的重新散列。意思是,我们知道如果 16 个桶中有 12 个(每个桶中有一个条目)已满(考虑到默认负载因子和初始容量),那么我们知道在下一个条目中哈希图将被重新散列。但是如果假设只有 3 个桶被占用,每个桶有 4 个条目(总共 12 个条目,但 16 个桶中只有 3 个桶在使用中),那情况呢?
所以我试图通过制作最差的哈希函数来复制它,它将所有条目放在一个桶中。
这是我的代码。
class X {
public Integer value;
public X(Integer value) {
super();
this.value = value;
}
@Override
public int hashCode() {
return 1;
}
@Override
public boolean equals(Object obj) {
X a = (X) obj;
if(this.value.equals(a.value)) {
return true;
}
return false;
}
}
现在我开始将值放入 hashmap 中。
HashMap<X, Integer> map = new HashMap<>();
map.put(new X(1), 1);
map.put(new X(2), 2);
map.put(new X(3), 3);
map.put(new X(4), 4);
map.put(new X(5), 5);
map.put(new X(6), 6);
map.put(new X(7), 7);
map.put(new X(8), 8);
map.put(new X(9), 9);
map.put(new X(10), 10);
map.put(new X(11), 11);
map.put(new X(12), 12);
map.put(new X(13), 13);
System.out.println(map.size());
所有节点都按预期进入单个存储桶,但我注意到在第 9 个条目上,hashmap 重新散列并将其容量增加了一倍。现在在第 10 个条目上,它的容量再次翻了一番。
谁能解释这是怎么回事?
提前致谢。
在 HashMap 中,如果条目的哈希码相同,它们将出现在同一个桶中。如果将唯一的 Integer 对象放在一个 hashMap 中,它们的 hashcode 肯定会发生变化,因为它们是不同的对象。
但在您的情况下,所有对象都具有相同的哈希码。这意味着您指定的所有条目都将在一个存储桶中。这些桶中的每一个都遵循特定的数据结构(linkedList/tree)。这里的容量根据特定的数据结构和哈希图而变化。
我在评论中提到了 运行 JB Nizet 的代码 (https://gist.github.com/jnizet/34ca08ba0314c8e857ea9a161c175f13/revisions),循环限制为 64 和 128(添加 64 和 128 元素):
- 添加 64 个元素时: 将第 49 个元素添加到 HashMap 时,容量翻倍(128)(因为负载因子为 0.75)
- 添加 128 个元素时: 将第 97 个元素添加到 HashMap 时,容量翻倍(256)(也是因为负载因子为 0.75)。
增加容量到64后,HashMap正常工作
综上所述,bucket使用一定长度(8个元素)的链表。之后它使用树数据结构(容量有波动)。原因是访问树结构 (O(log(n))) 比链表 (O(n)) 更快。
此图片显示了一个 JAVA 8 HashMap 的内部数组,其中包含树(在桶 0 处)和链表(在桶 1,2 和 3 处)。 Bucket 0 是一棵树,因为它有超过 8 个节点 (readmore)。
Hashmap and discussion on 上的文档在这方面会有所帮助。
回复评论而不是问题本身,因为你的评论与你实际想知道的内容更相关。
where this rehashing on bucket size is explained further
的最佳和最相关的答案是源代码本身。您在 9-th
条目中观察到的内容是预期的,并且发生在这部分代码中:
for (int binCount = 0; ; ++binCount) {
// some irrelevant lines skipped
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
其中 TREEIFY_THRESHOLD = 8
和 binCount
是 bin 的数量。
treeifyBin
方法名称有点误导,因为它 可能 重新调整大小,而不是 treefiy 垃圾箱,这是该方法代码的相关部分:
if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
resize();
请注意,它实际上会 resize
(读取其大小的两倍)并且不会生成 Tree
,直到达到 MIN_TREEIFY_CAPACITY
(64)。
阅读hashmap源码,
/**
* The smallest table capacity for which bins may be treeified.
* (Otherwise the table is resized if too many nodes in a bin.)
* Should be at least 4 * TREEIFY_THRESHOLD to avoid conflicts
* between resizing and treeification thresholds.
*/
static final int MIN_TREEIFY_CAPACITY = 64;
你会看到
- 如果容量未达到MIN_TREEIFY_CAPACITY(64),并且单个桶上的节点达到TREEIFY_THRESHOLD,现在地图将调整大小。
- 如果容量超过MIN_TREEIFY_CAPACITY(64),单桶节点达到
TREEIFY_THRESHOLD,现在 map 将树化桶上的节点(在源代码中也称为 bins)。
resize和treeify是两个可以带来map reorganize的操作,上面根据不同场景做出的决定也是一个tradeoff。
我试图了解在超过占用的桶数或所有桶中的条目总数时会发生 hashmap 的重新散列。意思是,我们知道如果 16 个桶中有 12 个(每个桶中有一个条目)已满(考虑到默认负载因子和初始容量),那么我们知道在下一个条目中哈希图将被重新散列。但是如果假设只有 3 个桶被占用,每个桶有 4 个条目(总共 12 个条目,但 16 个桶中只有 3 个桶在使用中),那情况呢?
所以我试图通过制作最差的哈希函数来复制它,它将所有条目放在一个桶中。
这是我的代码。
class X {
public Integer value;
public X(Integer value) {
super();
this.value = value;
}
@Override
public int hashCode() {
return 1;
}
@Override
public boolean equals(Object obj) {
X a = (X) obj;
if(this.value.equals(a.value)) {
return true;
}
return false;
}
}
现在我开始将值放入 hashmap 中。
HashMap<X, Integer> map = new HashMap<>();
map.put(new X(1), 1);
map.put(new X(2), 2);
map.put(new X(3), 3);
map.put(new X(4), 4);
map.put(new X(5), 5);
map.put(new X(6), 6);
map.put(new X(7), 7);
map.put(new X(8), 8);
map.put(new X(9), 9);
map.put(new X(10), 10);
map.put(new X(11), 11);
map.put(new X(12), 12);
map.put(new X(13), 13);
System.out.println(map.size());
所有节点都按预期进入单个存储桶,但我注意到在第 9 个条目上,hashmap 重新散列并将其容量增加了一倍。现在在第 10 个条目上,它的容量再次翻了一番。
谁能解释这是怎么回事?
提前致谢。
在 HashMap 中,如果条目的哈希码相同,它们将出现在同一个桶中。如果将唯一的 Integer 对象放在一个 hashMap 中,它们的 hashcode 肯定会发生变化,因为它们是不同的对象。
但在您的情况下,所有对象都具有相同的哈希码。这意味着您指定的所有条目都将在一个存储桶中。这些桶中的每一个都遵循特定的数据结构(linkedList/tree)。这里的容量根据特定的数据结构和哈希图而变化。
我在评论中提到了 运行 JB Nizet 的代码 (https://gist.github.com/jnizet/34ca08ba0314c8e857ea9a161c175f13/revisions),循环限制为 64 和 128(添加 64 和 128 元素):
- 添加 64 个元素时: 将第 49 个元素添加到 HashMap 时,容量翻倍(128)(因为负载因子为 0.75)
- 添加 128 个元素时: 将第 97 个元素添加到 HashMap 时,容量翻倍(256)(也是因为负载因子为 0.75)。
增加容量到64后,HashMap正常工作
综上所述,bucket使用一定长度(8个元素)的链表。之后它使用树数据结构(容量有波动)。原因是访问树结构 (O(log(n))) 比链表 (O(n)) 更快。
此图片显示了一个 JAVA 8 HashMap 的内部数组,其中包含树(在桶 0 处)和链表(在桶 1,2 和 3 处)。 Bucket 0 是一棵树,因为它有超过 8 个节点 (readmore)。
Hashmap and discussion on
回复评论而不是问题本身,因为你的评论与你实际想知道的内容更相关。
where this rehashing on bucket size is explained further
的最佳和最相关的答案是源代码本身。您在 9-th
条目中观察到的内容是预期的,并且发生在这部分代码中:
for (int binCount = 0; ; ++binCount) {
// some irrelevant lines skipped
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
其中 TREEIFY_THRESHOLD = 8
和 binCount
是 bin 的数量。
treeifyBin
方法名称有点误导,因为它 可能 重新调整大小,而不是 treefiy 垃圾箱,这是该方法代码的相关部分:
if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
resize();
请注意,它实际上会 resize
(读取其大小的两倍)并且不会生成 Tree
,直到达到 MIN_TREEIFY_CAPACITY
(64)。
阅读hashmap源码,
/** * The smallest table capacity for which bins may be treeified. * (Otherwise the table is resized if too many nodes in a bin.) * Should be at least 4 * TREEIFY_THRESHOLD to avoid conflicts * between resizing and treeification thresholds. */ static final int MIN_TREEIFY_CAPACITY = 64;
你会看到
- 如果容量未达到MIN_TREEIFY_CAPACITY(64),并且单个桶上的节点达到TREEIFY_THRESHOLD,现在地图将调整大小。
- 如果容量超过MIN_TREEIFY_CAPACITY(64),单桶节点达到 TREEIFY_THRESHOLD,现在 map 将树化桶上的节点(在源代码中也称为 bins)。
resize和treeify是两个可以带来map reorganize的操作,上面根据不同场景做出的决定也是一个tradeoff。