为什么 LSH 的 k 和 l 用于近似最近邻？

Why k and l for LSH used for approximate nearest neighbours?

在所有 Locality Sensitive Hashing 解释中（即 http://en.wikipedia.org/wiki/Locality-sensitive_hashing#LSH_algorithm_for_nearest_neighbor_search ）

他们描述生成了k个哈希函数，但是在哈希表中只使用了l(l < k)来对值进行哈希处理。

为什么要生成 k 而不仅仅是生成 l？

为什么单独的因子 k 和 l？

没看懂

实际上使用了所有哈希函数。如果您还记得，例如，在 "Bit sampling for Hamming distance" 部分中，单个散列函数可能只是 return 一个位，那么这就更有意义了。事实上，LSH 哈希函数的另一个例子是考虑在某个 d 维位置随机选择的平面，并根据被哈希的点在平面的哪一侧 return 0 或 1。

为了解决单个 table，因为哈希函数可能 return 只是一个位，您评估 k 个哈希函数并连接结果，给您一个可能是 k 位的密钥.现在有了 l tables，你需要 l 个不同的键，所以实际上你总共需要 l*k 个散列函数。

检查：看成功概率。当查找单个 table 时，单个散列函数 return 的查询值与概率 P1 的近邻相同。要在单个 table 中找到近邻，您必须让所有哈希函数都起作用，因此概率为 P1^k，并且单个查找失败的概率为 1 - P1^k。但是你尝试了 l 次，所以所有查找失败的概率是 (1-P1^k)^l，成功概率是 1-(1-P1^k)^l，这正是他们计算的结果。

为什么 LSH 的 k 和 l 用于近似最近邻？

Why k and l for LSH used for approximate nearest neighbours?

algorithm

hash

knn

approximate-nn-searching

locality-sensitive-hash