同一令牌的多个实例的问题
Issue with multiple instances of the same token
我在分析过程后多次获得令牌。我正在使用模式标记过滤器,并在同一输入字符串上使用具有不同标记过滤器实例的不同正则表达式。在某些情况下,我得到相同的令牌,其中开始和结束偏移量也相同,包括令牌本身,在某些情况下,相同的令牌出现不同的开始和结束偏移量。
这种行为是绝对正确的,因为我在输入字符串的多个位置出现了相同的标记。但是,问题是我只想要一个具有特定开始和结束偏移量的标记,而不是多次出现具有相同开始和结束偏移量的相同标记。其他出现相同标记但具有不同开始和结束偏移量的情况绝对没问题。
我不想使用“唯一”标记过滤器,因为它会删除所有出现的标记。
我已经通过创建自定义令牌过滤器工厂并使用 built-in Lucene RemoveDuplicatesTokenFilter 解决了这个问题。
我在分析过程后多次获得令牌。我正在使用模式标记过滤器,并在同一输入字符串上使用具有不同标记过滤器实例的不同正则表达式。在某些情况下,我得到相同的令牌,其中开始和结束偏移量也相同,包括令牌本身,在某些情况下,相同的令牌出现不同的开始和结束偏移量。
这种行为是绝对正确的,因为我在输入字符串的多个位置出现了相同的标记。但是,问题是我只想要一个具有特定开始和结束偏移量的标记,而不是多次出现具有相同开始和结束偏移量的相同标记。其他出现相同标记但具有不同开始和结束偏移量的情况绝对没问题。
我不想使用“唯一”标记过滤器,因为它会删除所有出现的标记。
我已经通过创建自定义令牌过滤器工厂并使用 built-in Lucene RemoveDuplicatesTokenFilter 解决了这个问题。