SOLR 中的 ICUTransformFilter

Question

我在 SOLR 中配置 ICUTransformFilter 后得到以下输出

สวัสดี转换为s̄wạs̄dī 无法理解它转换为哪个脚本？我在架构中的配置如下所示

<analyzer type="index">
    <tokenizer class="solr.ICUTokenizerFactory"/>
    <filter class="solr.ICUTransformFilterFactory" id="Thai-Latin" />
    <filter class="solr.ICUTransformFilterFactory" id="NFD; [:Nonspacing Mark:] Remove; NFC" />
    <filter class="solr.BeiderMorseFilterFactory" />
</analyzer>

它说 Thai-Latin ，但是当我使用 google 翻译器时，它将它转换为 "slave"

Answer 1

这似乎是从 my Thai example 复制的，其中已经解释了分析器的顺序。该配置用于能够搜索 'sawadika' 之类的内容，并获取包含听起来像（女性起源的）问候语的原始单词的实际泰语文本。

您似乎混淆了翻译（Google 翻译中的泰语到英语）和音译（将泰语映射为语音 matching/close 拉丁语）。音译就是这里发生的事情（实际上 Google 也显示了这一点）。总之，在第一个分析器之后，您仍然有声调标记试图显示泰语所具有的 raising/lowering/etc 声调。第二个分析器应该删除它们以获得 swasdi。然后，最终分析器将进行一些语音扩展以匹配其他替代拼写。

SOLR 中的 ICUTransformFilter

ICUTransformFilter in SOLR

solr

nlp

icu