Azure 搜索定义自定义分析器

Azure Search Define Custom Analyzer

我正在定义索引架构。其中一个字段是 "InvoiceNumber",它可以是“459”或“00459”或 "P00459"。

我想要文本“00459”,同时将索引标记化为 2 个标记“459”和原始“00459”。

和文本 "P00459",标记为 3 个标记“459”、“00459”和原始 "P00459"。

有没有办法为此定义自定义分析器?

使用适当的正则表达式配置 pattern_capture 标记过滤器能够在保留原始文本的同时基于同一文本生成多个标记。

https://docs.microsoft.com/en-us/azure/search/index-add-custom-analyzers https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternCaptureGroupTokenFilter.html

这是后者的例子link "(https?://([a-zA-Z-_0-9.]+))" 当与字符串 "http://www.foo.com/index" would return the tokens "https://www.foo.com" 和 "www.foo.com".

匹配时