SOLR 中的 ICUTransformFilter
ICUTransformFilter in SOLR
我在 SOLR 中配置 ICUTransformFilter 后得到以下输出
สวัสดี转换为s̄wạs̄dī
无法理解它转换为哪个脚本?我在架构中的配置如下所示
<analyzer type="index">
<tokenizer class="solr.ICUTokenizerFactory"/>
<filter class="solr.ICUTransformFilterFactory" id="Thai-Latin" />
<filter class="solr.ICUTransformFilterFactory" id="NFD; [:Nonspacing Mark:] Remove; NFC" />
<filter class="solr.BeiderMorseFilterFactory" />
</analyzer>
它说 Thai-Latin ,但是当我使用 google 翻译器时,它将它转换为 "slave"
这似乎是从 my Thai example 复制的,其中已经解释了分析器的顺序。该配置用于能够搜索 'sawadika' 之类的内容,并获取包含听起来像(女性起源的)问候语的原始单词的实际泰语文本。
您似乎混淆了翻译(Google 翻译中的泰语到英语)和音译(将泰语映射为语音 matching/close 拉丁语)。音译就是这里发生的事情(实际上 Google 也显示了这一点)。总之,在第一个分析器之后,您仍然有声调标记试图显示泰语所具有的 raising/lowering/etc 声调。第二个分析器应该删除它们以获得 swasdi。然后,最终分析器将进行一些语音扩展以匹配其他替代拼写。
我在 SOLR 中配置 ICUTransformFilter 后得到以下输出
สวัสดี转换为s̄wạs̄dī 无法理解它转换为哪个脚本?我在架构中的配置如下所示
<analyzer type="index">
<tokenizer class="solr.ICUTokenizerFactory"/>
<filter class="solr.ICUTransformFilterFactory" id="Thai-Latin" />
<filter class="solr.ICUTransformFilterFactory" id="NFD; [:Nonspacing Mark:] Remove; NFC" />
<filter class="solr.BeiderMorseFilterFactory" />
</analyzer>
它说 Thai-Latin ,但是当我使用 google 翻译器时,它将它转换为 "slave"
这似乎是从 my Thai example 复制的,其中已经解释了分析器的顺序。该配置用于能够搜索 'sawadika' 之类的内容,并获取包含听起来像(女性起源的)问候语的原始单词的实际泰语文本。
您似乎混淆了翻译(Google 翻译中的泰语到英语)和音译(将泰语映射为语音 matching/close 拉丁语)。音译就是这里发生的事情(实际上 Google 也显示了这一点)。总之,在第一个分析器之后,您仍然有声调标记试图显示泰语所具有的 raising/lowering/etc 声调。第二个分析器应该删除它们以获得 swasdi。然后,最终分析器将进行一些语音扩展以匹配其他替代拼写。