Locality Sensitive Hashing 能否应用于动态维度数据点?

Can Locality Sensitive Hashing be applied on dynamic-dimensional data points?

例如,假设我们有一些长度不同的向量,我们想要做的是测量每两对这些向量之间的相似性。我们必须考虑的是这些向量的维度是随时间变化的。我们可以这样做吗?

在对该主题进行了一些研究之后,我找到了一些笔记与您分享。 LSH的缺点如下。

  • 因为LSH需要用到大量的哈希表,所以会消耗大量的内存。
  • 也不能简单的适配数据的插入和删除
  • 此外,并非所有相似性指标都有合适的哈希函数。
  • 之后,LSH 高度依赖于向量的长度。可能会出现这样的情况,两个向量即使有一点点相似,但是 LSH 找不到任何共同的 Minhash,因此这些向量不被认为是相似的。

希望对您有所帮助。