ElasticSearch 中的模糊搜索不适用于空格

Fuzzy search in ElasticSearch doesn't work with spaces

我正在使用 ElasticSearch 中的模糊搜索选项。它太酷了。

但是我在搜索有空格的值时遇到了一个问题。例如说我有两个值:

"Pizza"
"Pineapple Pizza"

然后我使用以下查询搜索披萨:

        client.search({
            index: 'food_index',
            body: {
                query: {
                    fuzzy: {
                        name: {
                            value: "Pizza",
                            transpositions: true,
                        }
                    },
                }
            }
        })

返回的值为:

"Pizza"
"Pineapple Pizza"

这是意料之中的。但是,如果我在查询中输入值 "Pineapple Pizza":

        client.search({
            index: 'food_index',
            body: {
                query: {
                    fuzzy: {
                        name: {
                            value: "Pineapple Pizza",
                            transpositions: true,
                        }
                    },
                }
            }
        })

返回的值为:

""

这是为什么?应该是完全匹配。 我正在考虑将所有包含空格的名称切换为下划线。所以 "Pineapple Pizza" 将是 "Pineapple_Pizza" (这个解决方案对我有用)。但我问这个问题是希望找到更好的选择。我在这里做错了什么?

模糊查询是术语级别的查询。这意味着在匹配文档之前不会分析搜索到的文本。在您的情况下,标准分析器用于字段名称,它将 "Pineapple Pizza" 分成两个标记 Pineapple 和 pizza。模糊查询试图将搜索文本 "Pineapple pizza" 与索引中的任何相似词匹配,但索引中没有整个词 pineapple pizza 的条目(它被分成两个词。)

您需要使用 match query 并设置模糊性来分析查询字符串

{
  "query": {
        "match" : {
            "item" : {
                "query" : "Pineappl piz",
                "fuzziness": "auto"
            }
        }
    }
}

回复:

 [
      {
        "_index" : "index27",
        "_type" : "_doc",
        "_id" : "p9qQDG4BLLIhDvFGnTMX",
        "_score" : 0.53372335,
        "_source" : {
          "item" : "Pineapple Pizza"
        }
      }
    ]

您还可以在 keyword 字段上使用模糊性,该字段将整个文本存储在索引

{
  "query": {
    "fuzzy": {
      "item.keyword": {
        "value":"Pineapple pizz"
      }
    }
  }
}

编辑 1:

{
  "query": {
        "match" : {
            "item" : {
                "query" : "Pineapple pizza",
                "operator": "and",
                "fuzziness": "auto"
            }
        }
    }
}

"operator": "and" --> 查询中的所有标记必须存在于文档中。 默认为 OR ,如果存在任何一个标记,则存在文档。还有其他可能的组合,您可以在其中定义多少个标记应该以百分比术语

匹配