ngram 匹配对不太相关的文档给出相同的分数
ngram matching gives same score to less relevant documents
我正在我的 elasticsearch 索引中搜索 Bob Smith。结果 Bob Smith 和 Bobbi Smith 都以相同的分数返回响应。我希望 Bob Smith 获得更高的分数,以便它出现在我的结果集中的第一位。为什么分数相等?
这是我的查询
{
"query": {
"query_string": {
"query": "Bob Smith",
"fields": [
"text_field"
]
}
}
}
以下是我的索引设置。我正在使用此处描述的 ngram 标记过滤器:https://qbox.io/blog/an-introduction-to-ngrams-in-elasticsearch
{
"contacts_5test": {
"aliases": {},
"mappings": {
"properties": {
"text_field": {
"type": "text",
"term_vector": "yes",
"analyzer": "ngram_filter_analyzer"
}
}
},
"settings": {
"index": {
"number_of_shards": "1",
"provided_name": "contacts_5test",
"creation_date": "1588987227997",
"analysis": {
"filter": {
"ngram_filter": {
"type": "nGram",
"min_gram": "4",
"max_gram": "4"
}
},
"analyzer": {
"ngram_filter_analyzer": {
"filter": [
"lowercase",
"ngram_filter"
],
"type": "custom",
"tokenizer": "standard"
}
}
},
"number_of_replicas": "1",
"uuid": "HqOXu9bNRwCHSeK39WWlxw",
"version": {
"created": "7060199"
}
}
}
}
}
这是我的查询结果...
"hits": [
{
"_index": "contacts_5test",
"_type": "_doc",
"_id": "1",
"_score": 0.69795835,
"_source": {
"text_field": "Bob Smith"
}
},
{
"_index": "contacts_5test",
"_type": "_doc",
"_id": "2",
"_score": 0.69795835,
"_source": {
"text_field": "Bobbi Smith"
}
}
]
如果我改为搜索 Bobbi Smith,弹性 returns 两个文档,但 Bobbi Smith 的得分更高。这更有意义。
我能够重现您的问题,这是因为使用了您的 ngram_filter
,它不会为 bob
创建任何令牌,因为令牌的最小长度应该成为 4
,而标准分词器创建了 bob
令牌,但随后它在您提到 min_gram
为 4
的 ngram_filter
中被过滤掉了。
即使我尝试使用更短的 min_gram
长度到 3
,这会创建令牌,但问题是 bob
和 bobbie
将具有相同的 bob
个标记,因此它们的分数将相同。
而当您搜索 Bobbi Smith
时,则 bobbi
即确切的标记将仅出现在一个文档中,因此您会获得更高的分数。
注意:- 请使用 analyze API and explain API 检查生成的令牌以及它们是如何匹配的,这将帮助您理解问题和我的详细解释以及我的
我正在我的 elasticsearch 索引中搜索 Bob Smith。结果 Bob Smith 和 Bobbi Smith 都以相同的分数返回响应。我希望 Bob Smith 获得更高的分数,以便它出现在我的结果集中的第一位。为什么分数相等?
这是我的查询
{
"query": {
"query_string": {
"query": "Bob Smith",
"fields": [
"text_field"
]
}
}
}
以下是我的索引设置。我正在使用此处描述的 ngram 标记过滤器:https://qbox.io/blog/an-introduction-to-ngrams-in-elasticsearch
{
"contacts_5test": {
"aliases": {},
"mappings": {
"properties": {
"text_field": {
"type": "text",
"term_vector": "yes",
"analyzer": "ngram_filter_analyzer"
}
}
},
"settings": {
"index": {
"number_of_shards": "1",
"provided_name": "contacts_5test",
"creation_date": "1588987227997",
"analysis": {
"filter": {
"ngram_filter": {
"type": "nGram",
"min_gram": "4",
"max_gram": "4"
}
},
"analyzer": {
"ngram_filter_analyzer": {
"filter": [
"lowercase",
"ngram_filter"
],
"type": "custom",
"tokenizer": "standard"
}
}
},
"number_of_replicas": "1",
"uuid": "HqOXu9bNRwCHSeK39WWlxw",
"version": {
"created": "7060199"
}
}
}
}
}
这是我的查询结果...
"hits": [
{
"_index": "contacts_5test",
"_type": "_doc",
"_id": "1",
"_score": 0.69795835,
"_source": {
"text_field": "Bob Smith"
}
},
{
"_index": "contacts_5test",
"_type": "_doc",
"_id": "2",
"_score": 0.69795835,
"_source": {
"text_field": "Bobbi Smith"
}
}
]
如果我改为搜索 Bobbi Smith,弹性 returns 两个文档,但 Bobbi Smith 的得分更高。这更有意义。
我能够重现您的问题,这是因为使用了您的 ngram_filter
,它不会为 bob
创建任何令牌,因为令牌的最小长度应该成为 4
,而标准分词器创建了 bob
令牌,但随后它在您提到 min_gram
为 4
的 ngram_filter
中被过滤掉了。
即使我尝试使用更短的 min_gram
长度到 3
,这会创建令牌,但问题是 bob
和 bobbie
将具有相同的 bob
个标记,因此它们的分数将相同。
而当您搜索 Bobbi Smith
时,则 bobbi
即确切的标记将仅出现在一个文档中,因此您会获得更高的分数。
注意:- 请使用 analyze API and explain API 检查生成的令牌以及它们是如何匹配的,这将帮助您理解问题和我的详细解释以及我的