Elasticsearch 与词干匹配
Elasticsearch match with stemming
如何搜索词干匹配项?
即目前我有很多文档在 item_title
字段中包含单词 "skateboard",但只有 3 个文档包含单词 "skateboards"。因此,当我进行以下搜索时:
POST /my_index/my_type/_search
{
"size": 100,
"query" : {
"multi_match": {
"query": "skateboards",
"fields": [ "item_title^3" ]
}
}
}
我只得到 3 个结果。但是,我还想返回带有单词 "skateboard" 的文档。
据我对 Elasticsearch 的了解,我希望这是通过在 item_title
字段上指定一个映射来完成的,该字段包含一个分析器,该分析器为每个单词的词干版本编制索引,但我似乎无法做到找到有关如何执行此操作的文档,这表明它是以不同的方式完成的。
建议?
这是一个例子:
PUT /stem
{
"settings": {
"analysis": {
"filter": {
"filter_stemmer": {
"type": "stemmer",
"language": "english"
}
},
"analyzer": {
"tags_analyzer": {
"type": "custom",
"filter": [
"standard",
"lowercase",
"filter_stemmer"
],
"tokenizer": "standard"
}
}
}
},
"mappings": {
"test": {
"properties": {
"item_title": {
"analyzer": "tags_analyzer",
"type": "text"
}
}
}
}
}
索引一些示例文档:
POST /stem/test/1
{
"item_title": "skateboards"
}
POST /stem/test/2
{
"item_title": "skateboard"
}
POST /stem/test/3
{
"item_title": "skate"
}
执行查询:
GET /stem/test/_search
{
"query": {
"multi_match": {
"query": "skateboards",
"fields": [
"item_title^3"
]
}
},
"fielddata_fields": [
"item_title"
]
}
并查看结果:
"hits": [
{
"_index": "stem",
"_type": "test",
"_id": "1",
"_score": 1,
"_source": {
"item_title": "skateboards"
},
"fields": {
"item_title": [
"skateboard"
]
}
},
{
"_index": "stem",
"_type": "test",
"_id": "2",
"_score": 1,
"_source": {
"item_title": "skateboard"
},
"fields": {
"item_title": [
"skateboard"
]
}
}
]
我还添加了 fielddata_fields
元素,这样您就可以看到该字段的内容是如何被索引的。如您所见,在这两种情况下,索引词都是 skateboard
.
如何搜索词干匹配项?
即目前我有很多文档在 item_title
字段中包含单词 "skateboard",但只有 3 个文档包含单词 "skateboards"。因此,当我进行以下搜索时:
POST /my_index/my_type/_search
{
"size": 100,
"query" : {
"multi_match": {
"query": "skateboards",
"fields": [ "item_title^3" ]
}
}
}
我只得到 3 个结果。但是,我还想返回带有单词 "skateboard" 的文档。
据我对 Elasticsearch 的了解,我希望这是通过在 item_title
字段上指定一个映射来完成的,该字段包含一个分析器,该分析器为每个单词的词干版本编制索引,但我似乎无法做到找到有关如何执行此操作的文档,这表明它是以不同的方式完成的。
建议?
这是一个例子:
PUT /stem
{
"settings": {
"analysis": {
"filter": {
"filter_stemmer": {
"type": "stemmer",
"language": "english"
}
},
"analyzer": {
"tags_analyzer": {
"type": "custom",
"filter": [
"standard",
"lowercase",
"filter_stemmer"
],
"tokenizer": "standard"
}
}
}
},
"mappings": {
"test": {
"properties": {
"item_title": {
"analyzer": "tags_analyzer",
"type": "text"
}
}
}
}
}
索引一些示例文档:
POST /stem/test/1
{
"item_title": "skateboards"
}
POST /stem/test/2
{
"item_title": "skateboard"
}
POST /stem/test/3
{
"item_title": "skate"
}
执行查询:
GET /stem/test/_search
{
"query": {
"multi_match": {
"query": "skateboards",
"fields": [
"item_title^3"
]
}
},
"fielddata_fields": [
"item_title"
]
}
并查看结果:
"hits": [
{
"_index": "stem",
"_type": "test",
"_id": "1",
"_score": 1,
"_source": {
"item_title": "skateboards"
},
"fields": {
"item_title": [
"skateboard"
]
}
},
{
"_index": "stem",
"_type": "test",
"_id": "2",
"_score": 1,
"_source": {
"item_title": "skateboard"
},
"fields": {
"item_title": [
"skateboard"
]
}
}
]
我还添加了 fielddata_fields
元素,这样您就可以看到该字段的内容是如何被索引的。如您所见,在这两种情况下,索引词都是 skateboard
.