Lucene 3.0.3 - 模糊搜索相似度如何与更高版本的编辑距离相关? (例如 4.x)
Lucene 3.0.3 - How is fuzzy search similarity correlated to later versions edit distance? (e.g. 4.x)
在版本 4.x 之前,您可以使用 0.1 到 1.0 之间的浮点数设置模糊搜索的相似度。
更高版本使用 0 到 2 之间的值作为编辑距离。
这些值如何关联?我无法在文档中的任何地方找到从 0.1 到 1.0 的实际浮点范围意味着什么。
我正在使用 lucene.net 3.0.3
4.0 版以后只需使用 Damerau-Levenshtein edit distance.
版本 3.0.3 将编辑距离与词条长度进行比较。如果 length(term) * minSimilarity >= edit distance
(其中 minSimilarity 是您所指的浮点参数),则该术语被视为匹配。
因此,如果将其设置为 0.5,则长度为 4 的词条的编辑距离最多为 2,而长度为 6 的词条的编辑距离为 3,并且仍然是匹配项。
在版本 4.x 之前,您可以使用 0.1 到 1.0 之间的浮点数设置模糊搜索的相似度。 更高版本使用 0 到 2 之间的值作为编辑距离。
这些值如何关联?我无法在文档中的任何地方找到从 0.1 到 1.0 的实际浮点范围意味着什么。
我正在使用 lucene.net 3.0.3
4.0 版以后只需使用 Damerau-Levenshtein edit distance.
版本 3.0.3 将编辑距离与词条长度进行比较。如果 length(term) * minSimilarity >= edit distance
(其中 minSimilarity 是您所指的浮点参数),则该术语被视为匹配。
因此,如果将其设置为 0.5,则长度为 4 的词条的编辑距离最多为 2,而长度为 6 的词条的编辑距离为 3,并且仍然是匹配项。