SOLR 特殊字符和表情符号
SOLR Special Characters and Emoticons
我想索引包含特殊字符(如(货币符号)和表情符号)的文本数据。目前我正在使用以下代码来索引这些数据:
<fieldTypename="text"class="solr.TextField">
<analyzer>
<tokenizerclass="solr.WhitespaceTokenizerFactory"/>
<filterclass="solr.LowerCaseFilterFactory"/>
<filterclass="solr.KeywordRepeatFilterFactory"/>
<filterclass="solr.StopFilterFactory"words="stopwords.txt"
ignoreCase="true"/>
</analyzer>
但是在检索数据时,我可以看到所有特殊字符和表情符号以及被宠坏的,例如
债务为 1,590.79 结算为 436.00
请建议在这里可以做什么。
应用程序流程:数据首先存储在 HBASE 中,然后使用实时索引器将其更新为 SOLR。
CDH Ver:5.4.5
SOLR Ver:4.10.3
HBASE VEer:1.0.0
我通过将笑脸符号转换为 HTMLHex 然后将其存储到 SOLR 来解决这个问题。现在在 SOLR 中,我可以看到完整的十六进制代码,并且可以将其转换回笑脸符号。
使用的图书馆:
Lib to convert emoticons to Hex emoji-java
我想索引包含特殊字符(如(货币符号)和表情符号)的文本数据。目前我正在使用以下代码来索引这些数据:
<fieldTypename="text"class="solr.TextField">
<analyzer>
<tokenizerclass="solr.WhitespaceTokenizerFactory"/>
<filterclass="solr.LowerCaseFilterFactory"/>
<filterclass="solr.KeywordRepeatFilterFactory"/>
<filterclass="solr.StopFilterFactory"words="stopwords.txt"
ignoreCase="true"/>
</analyzer>
但是在检索数据时,我可以看到所有特殊字符和表情符号以及被宠坏的,例如
债务为 1,590.79 结算为 436.00
请建议在这里可以做什么。
应用程序流程:数据首先存储在 HBASE 中,然后使用实时索引器将其更新为 SOLR。
CDH Ver:5.4.5 SOLR Ver:4.10.3 HBASE VEer:1.0.0
我通过将笑脸符号转换为 HTMLHex 然后将其存储到 SOLR 来解决这个问题。现在在 SOLR 中,我可以看到完整的十六进制代码,并且可以将其转换回笑脸符号。
使用的图书馆:
Lib to convert emoticons to Hex emoji-java