elasticsearch 自定义分词器不按“:”分割时间

elasticsearch custom tokenizer don't split time by ":"

比如我有这样的日志:

11:22:33 user:abc&game:cde

如果我使用标准分词器,此日志将拆分为:

 11  22   33  user  abc  game  cde

但是11:22:33表示时间,我不想拆分它,我想使用自定义分词器将它拆分为:

11:22:33  user abc  game  cde

那么,我应该如何设置分词器?

您可以使用模式分词器来实现这一点。

一个pattern类型的tokenizer,可以通过正则表达式灵活地将文本分成术语

在此处阅读更多内容:https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-pattern-tokenizer.html