SOLR 特殊字符和表情符号

SOLR Special Characters and Emoticons

我想索引包含特殊字符(如(货币符号)和表情符号)的文本数据。目前我正在使用以下代码来索引这些数据: <fieldTypename="text"class="solr.TextField"> <analyzer> <tokenizerclass="solr.WhitespaceTokenizerFactory"/> <filterclass="solr.LowerCaseFilterFactory"/> <filterclass="solr.KeywordRepeatFilterFactory"/> <filterclass="solr.StopFilterFactory"words="stopwords.txt" ignoreCase="true"/> </analyzer>
但是在检索数据时,我可以看到所有特殊字符和表情符号以及被宠坏的,例如
债务为 1,590.79 结算为 436.00

请建议在这里可以做什么。

应用程序流程:数据首先存储在 HBASE 中,然后使用实时索引器将其更新为 SOLR。

CDH Ver:5.4.5 SOLR Ver:4.10.3 HBASE VEer:1.0.0

我通过将笑脸符号转换为 HTMLHex 然后将其存储到 SOLR 来解决这个问题。现在在 SOLR 中,我可以看到完整的十六进制代码,并且可以将其转换回笑脸符号。
使用的图书馆:
Lib to convert emoticons to Hex emoji-java