弹性搜索:运行 对同一数据的多个分析器

Elastic search: Run multiple analyzers on the same data

我正在寻找一种方法让 ES 使用多个分析器搜索数据。 NGram 分析器和一种或几种语言分析器。

可能的解决方案是使用多字段并明确声明每个字段使用哪个分析器。

例如,要设置以下映射:

  "mappings": {
    "my_entity": {
      "properties": {
        "my_field": {
          "type": "text",
          "fields": {
            "ngram": {
              "type": "string",
              "analyzer": "ngram_analyzer"
            },
            "spanish": {
              "type": "string",
              "analyzer": "spanish"
            },
            "english": {
              "type": "string",
              "analyzer": "english"
            }
          }
        }
      }
    }
  }

问题是我已经明确地将每个字段及其分析器写入搜索查询。 并且它不允许使用“_all”进行搜索并使用多个分析器。

有没有办法让“_all”查询使用多个分析器? 诸如“_all.ngram”、“_all.spanish”之类的东西在不使用 copy_to 的情况下会复制数据吗?

是否可以将 ngram 分析器与西班牙语(或任何其他外语)结合起来并制作一个自定义分析器? 我已经测试了以下设置,但这些设置不起作用:

    PUT /ngrams_index
    {
       "settings": {
          "number_of_shards": 1,
          "analysis": {
            "tokenizer": {
              "ngram_tokenizer": {
                 "type": "nGram",
                 "min_gram": 3,
                 "max_gram": 3
              }
            },
            "filter": {
                "ngram_filter": {
                   "type": "nGram",
                   "min_gram": 3,
                   "max_gram": 3
              },

              "spanish_stop": {
                "type":       "stop",
                "stopwords":  "_spanish_" 
              },
              "spanish_keywords": {
                "type":       "keyword_marker",
                "keywords":   ["ejemplo"] 
              },
              "spanish_stemmer": {
                "type":       "stemmer",
                "language":   "light_spanish"
              }


            },
            "analyzer": {
              "ngram_analyzer": {
                 "type": "custom",
                 "tokenizer": "ngram_tokenizer",
                 "filter": [
                    "lowercase",
                    "spanish_stop",
                    "spanish_keywords",
                    "spanish_stemmer"
                 ]
              }
            }
          }
       },
       "mappings": {
          "my_entity": {
            "_all": {
                    "enabled": true,
                    "analyzer": "ngram_analyzer"
             },

             "properties": {
                "my_field": {
                    "type": "text",
                    "fields": {
                          "analyzer1": {
                            "type": "string",
                            "analyzer": "ngram_analyzer"
                          },
                          "analyzer2": {
                                  "type": "string",
                                 "analyzer": "spanish"
                          },
                          "analyzer3": {
                                  "type": "string",
                                 "analyzer": "english"
                          }
                    }
                }
             }
          }
       }
    }



    GET /ngrams_index/_analyze
    {
      "field": "_all",   
      "text": "Hola, me llamo Juan."
    }

returns:只有 ngram 结果,没有西班牙语分析

哪里

    GET /ngrams_index/_analyze
    {
      "field": "my_field.analyzer2",   
      "text": "Hola, me llamo Juan."
    }

正确分析搜索字符串。

是否可以构建结合西班牙语和 ngram 的自定义分析器?

有一种方法可以创建自定义 ngram+ 语言分析器:

PUT /ngrams_index
{
  "settings": {
    "number_of_shards": 1,
    "analysis": {
      "filter": {
        "ngram_filter": {
          "type": "nGram",
          "min_gram": 3,
          "max_gram": 3
        },
        "spanish_stop": {
          "type": "stop",
          "stopwords": "_spanish_"
        },
        "spanish_keywords": {
          "type": "keyword_marker",
          "keywords": [
            "ejemplo"
          ]
        },
        "spanish_stemmer": {
          "type": "stemmer",
          "language": "light_spanish"
        }
      },
      "analyzer": {
        "ngram_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "spanish_stop",
            "spanish_keywords",
            "spanish_stemmer",
            "ngram_filter"
          ]
        }
      }
    }
  },
  "mappings": {
    "my_entity": {
      "_all": {
        "enabled": true,
        "analyzer": "ngram_analyzer"
      },

      "properties": {
        "my_field": {
          "type": "text",
          "analyzer": "ngram_analyzer"
        }
      }
    }
  }
}


GET /ngrams_index/_analyze
{
  "field": "my_field",
  "text": "Hola, me llamo Juan."
}