LSH 使用的哈希混淆
Confusion in hashing used by LSH
矩阵M
为签名矩阵,由实际数据的Minhashing生成,文档为列,单词为行。所以一列代表一个文档。
现在它表示每个条带(b
的数量,r
的长度)都对其列进行了哈希处理,因此列落在一个桶中。如果两列落在同一个桶中,对于 >= 1 个条纹,那么它们可能是相似的。
那么这意味着我应该创建 b
个哈希表并找到 b
个独立的哈希函数?或者只有一个就足够了,每个条带将其列发送到相同的桶集合(但这不会取消条带)吗?
在这种情况下,字典对于哈希表是否足够*?
*Is a Python dictionary an example of a hash table?
我想我明白了,为未来的读者发帖。
我将使用一本字典,因为幻灯片提到可以为每个条带使用相同的哈希函数 ()。
每个桶都将成为我们字典的关键字。
插入时,文档(即属于条带的列)将通过散列函数(我们 将创建)传递,结果应该是一个键.这样我们的字典就会被填充。
矩阵M
为签名矩阵,由实际数据的Minhashing生成,文档为列,单词为行。所以一列代表一个文档。
现在它表示每个条带(b
的数量,r
的长度)都对其列进行了哈希处理,因此列落在一个桶中。如果两列落在同一个桶中,对于 >= 1 个条纹,那么它们可能是相似的。
那么这意味着我应该创建 b
个哈希表并找到 b
个独立的哈希函数?或者只有一个就足够了,每个条带将其列发送到相同的桶集合(但这不会取消条带)吗?
在这种情况下,字典对于哈希表是否足够*?
*Is a Python dictionary an example of a hash table?
我想我明白了,为未来的读者发帖。
我将使用一本字典,因为幻灯片提到可以为每个条带使用相同的哈希函数 (
每个桶都将成为我们字典的关键字。
插入时,文档(即属于条带的列)将通过散列函数(我们 将创建)传递,结果应该是一个键.这样我们的字典就会被填充。