LSH 使用的哈希混淆

Confusion in hashing used by LSH

矩阵M为签名矩阵，由实际数据的Minhashing生成，文档为列，单词为行。所以一列代表一个文档。

现在它表示每个条带（b 的数量，r 的长度）都对其列进行了哈希处理，因此列落在一个桶中。如果两列落在同一个桶中，对于 >= 1 个条纹，那么它们可能是相似的。

那么这意味着我应该创建 b 个哈希表并找到 b 个独立的哈希函数？或者只有一个就足够了，每个条带将其列发送到相同的桶集合（但这不会取消条带）吗？

在这种情况下，字典对于哈希表是否足够^*？

*_{Is a Python dictionary an example of a hash table?}

我想我明白了，为未来的读者发帖。

我将使用一本字典，因为幻灯片提到可以为每个条带使用相同的哈希函数 ()。

每个桶都将成为我们字典的关键字。

插入时，文档（即属于条带的列）将通过散列函数（我们将创建）传递，结果应该是一个键.这样我们的字典就会被填充。