Elasticsearch 7.10 如何为文档中较早出现的术语赋予更多权重
Elasticsearch 7.10 How to give more weight to terms that appear earlier in a document
假设我们在特定字段上针对术语“cosmopolitan”发出查询(确切类型不相关),并假设结果集包含多个文档,每个文档都恰好包含 'k' “国际化”的实例。
通过任何适用的机制(提升、加权、排序等),我希望返回的结果集考虑到文档中“cosmopolitan”的位置,即如果cosmopolitan 较低(更接近文档的开头),然后其 rank/score 较高。
我研究了不同类型的查询和脚本,但似乎找不到适用于此的东西,这看起来很奇怪,因为对于许多域而言,术语位置可能非常重要。
如果我们讨论的是任意 myfield
的精确子串,我们可以使用 sorting script 从整个字符串长度中减去第一次出现的索引,从而提高较早出现的次数:
{
"query": { ... },
"sort": [
{
"_script": {
"script": {
"params": {
"substr_value": "cosmopolitan"
},
"source": """
def fieldval = doc['myfield.keyword'].value;
def indexof = fieldval.indexOf(params.substr_value);
return indexof == -1 ? _score : _score + (fieldval.length() - indexof)
"""
},
"type": "number",
"order": "desc"
}
}
]
}
不需要 .keyword
映射——该字段也可以有 fielddata: true
设置——无论哪种方式,我们都需要访问 [=12= 的原始值] 为了让这个脚本工作。
或者,function score query 非常适合这里:
{
"query": {
"function_score": {
"query": {
"match": {
"myfield": "cosmopolitan"
}
},
"script_score": {
"script": {
"params": {
"substr_value": "cosmopolitan"
},
"source": """
def fieldval = doc['myfield.keyword'].value;
def indexof = fieldval.indexOf(params.substr_value);
return indexof == -1 ? _score : (fieldval.length() - indexof)
"""
}
},
"boost_mode": "sum"
}
}
}
您可以调整其参数,如 boost_mode
、weight
等以满足您的需要。
此外,您可能希望对所有出现的子字符串进行加权平均,您可以在这些脚本中这样做。
假设我们在特定字段上针对术语“cosmopolitan”发出查询(确切类型不相关),并假设结果集包含多个文档,每个文档都恰好包含 'k' “国际化”的实例。
通过任何适用的机制(提升、加权、排序等),我希望返回的结果集考虑到文档中“cosmopolitan”的位置,即如果cosmopolitan 较低(更接近文档的开头),然后其 rank/score 较高。
我研究了不同类型的查询和脚本,但似乎找不到适用于此的东西,这看起来很奇怪,因为对于许多域而言,术语位置可能非常重要。
如果我们讨论的是任意 myfield
的精确子串,我们可以使用 sorting script 从整个字符串长度中减去第一次出现的索引,从而提高较早出现的次数:
{
"query": { ... },
"sort": [
{
"_script": {
"script": {
"params": {
"substr_value": "cosmopolitan"
},
"source": """
def fieldval = doc['myfield.keyword'].value;
def indexof = fieldval.indexOf(params.substr_value);
return indexof == -1 ? _score : _score + (fieldval.length() - indexof)
"""
},
"type": "number",
"order": "desc"
}
}
]
}
不需要 .keyword
映射——该字段也可以有 fielddata: true
设置——无论哪种方式,我们都需要访问 [=12= 的原始值] 为了让这个脚本工作。
或者,function score query 非常适合这里:
{
"query": {
"function_score": {
"query": {
"match": {
"myfield": "cosmopolitan"
}
},
"script_score": {
"script": {
"params": {
"substr_value": "cosmopolitan"
},
"source": """
def fieldval = doc['myfield.keyword'].value;
def indexof = fieldval.indexOf(params.substr_value);
return indexof == -1 ? _score : (fieldval.length() - indexof)
"""
}
},
"boost_mode": "sum"
}
}
}
您可以调整其参数,如 boost_mode
、weight
等以满足您的需要。
此外,您可能希望对所有出现的子字符串进行加权平均,您可以在这些脚本中这样做。