Elasticsearch：索引字符串的第一个字符

Question

我使用的是 5.3 版。

我有一个文本字段 a。我想聚合 a 的第一个字符。我还需要整个原始值。

我假设最有效的方法是使用自定义规范器设置关键字字段 a.firstLetter。我试图通过模式替换字符过滤器来实现这一点，但我正在努力使用正则表达式。

我这样做完全错了吗？你能帮帮我吗？

编辑

这是我试过的。

settings.json

{
  "settings":  {
    "index": {
      "analysis": {
        "char_filter": {
          "first_char": {
            "type": "pattern_replace",
            "pattern": "(?<=^.)(.*)",
            "replacement": ""
          }
        }
        "normalizer": {
          "first_letter": {
            "type": "custom",
            "char_filter": ["first_char"]
            "filter": ["lowercase"]
          }
        }
      }
    }
  }
}

mappings.json

{
  "properties": {
    "a": {
      "type": "text",
      "index_options": "positions",
      "fields": {
        "firstLetter": {
          "type": "keyword",
          "normalizer": "first_letter"
        }
      }
    }
  }
}

当我尝试像这样聚合时，我没有得到任何桶：

"aggregations": {
  "grouping": {
    "terms": {
      "field": "a.firstLetter"
    }
  }
}

所以基本上我的方法是 "replace all but the first char with an empty string." 正则表达式是我能够通过谷歌搜索收集到的东西。

编辑 2 我错误地配置了规范器（我已经修复了示例）。由于 issue 23142，正确的配置表明规范器不支持模式替换字符过滤器。显然对它的支持最早会在5.4版本中实现。

那么还有其他选择吗？我不想在代码中通过在文档中为第一个字母添加一个字段来执行此操作，因为我正在为所有其他聚合使用 Elasticsearch 功能。

Answer 1

您可以使用长度为 one

的 truncate 过滤器

PUT foo
{
  "mappings": {
    "bar" : {
      "properties": {
        "name" : {
          "type": "text",
          "analyzer": "my_analyzer"
        }
      }
    }
  }, 
  "settings":  {
    "index": {
      "analysis": {
        "analyzer" : {
          "my_analyzer" : {
            "type" : "custom",
            "tokenizer" : "keyword",
            "filter" : [ "my_filter", "lowercase" ]
          }
        },
        "filter": {
          "my_filter": {
            "type": "truncate",
            "length": 1
          }
        }
      }
    }
  }
}

GET foo/_analyze
{
  "field" : "name",
  "text" : "New York"
}

# response
{
  "tokens": [
    {
      "token": "n",
      "start_offset": 0,
      "end_offset": 8,
      "type": "word",
      "position": 0
    }
  ]
}

Elasticsearch：索引字符串的第一个字符

Elasticsearch: index first char of string

aggregation

mappings

elasticsearch