重新使用内置语言过滤器?
Re-using inbuilt language filters?
我看到了问题 here,它展示了如何创建自定义分析器以同时支持同义词和语言支持。
但是,它似乎也创建了自己的词干分析器和停用词集合。
如果我想向 "danish" 内置分析器添加同义词怎么办?我可以参考内置的丹麦语词干分析器和停用词过滤器吗?例如,它只是调用 danish_stemmer
和 danish_stopwords
吗?
也许内置过滤器列表会有所帮助 - 我在哪里可以看到这些内置过滤器的名称?
对于每个预建的语言分析器,都有一个如何重建它的示例。对于 danish
有这个例子:
PUT /danish_example
{
"settings": {
"analysis": {
"filter": {
"danish_stop": {
"type": "stop",
"stopwords": "_danish_"
},
"danish_keywords": {
"type": "keyword_marker",
"keywords": ["eksempel"]
},
"danish_stemmer": {
"type": "stemmer",
"language": "danish"
}
},
"analyzer": {
"rebuilt_danish": {
"tokenizer": "standard",
"filter": [
"lowercase",
"danish_stop",
"danish_keywords",
"danish_stemmer"
]
}
}
}
}
}
这实际上是在构建您自己的 custom analyzer。
可以找到可用词干分析器列表 here. The list of available pre-built stopwords lists can be found here。
希望对您有所帮助!
我看到了问题 here,它展示了如何创建自定义分析器以同时支持同义词和语言支持。
但是,它似乎也创建了自己的词干分析器和停用词集合。
如果我想向 "danish" 内置分析器添加同义词怎么办?我可以参考内置的丹麦语词干分析器和停用词过滤器吗?例如,它只是调用 danish_stemmer
和 danish_stopwords
吗?
也许内置过滤器列表会有所帮助 - 我在哪里可以看到这些内置过滤器的名称?
对于每个预建的语言分析器,都有一个如何重建它的示例。对于 danish
有这个例子:
PUT /danish_example
{
"settings": {
"analysis": {
"filter": {
"danish_stop": {
"type": "stop",
"stopwords": "_danish_"
},
"danish_keywords": {
"type": "keyword_marker",
"keywords": ["eksempel"]
},
"danish_stemmer": {
"type": "stemmer",
"language": "danish"
}
},
"analyzer": {
"rebuilt_danish": {
"tokenizer": "standard",
"filter": [
"lowercase",
"danish_stop",
"danish_keywords",
"danish_stemmer"
]
}
}
}
}
}
这实际上是在构建您自己的 custom analyzer。
可以找到可用词干分析器列表 here. The list of available pre-built stopwords lists can be found here。
希望对您有所帮助!