Elasticsearch 7.10 如何为文档中较早出现的术语赋予更多权重

Elasticsearch 7.10 How to give more weight to terms that appear earlier in a document

假设我们在特定字段上针对术语“cosmopolitan”发出查询(确切类型不相关),并假设结果集包含多个文档,每个文档都恰好包含 'k' “国际化”的实例。

通过任何适用的机制(提升、加权、排序等),我希望返回的结果集考虑到文档中“cosmopolitan”的位置,即如果cosmopolitan 较低(更接近文档的开头),然后其 rank/score 较高。

我研究了不同类型的查询和脚本,但似乎找不到适用于此的东西,这看起来很奇怪,因为对于许多域而言,术语位置可能非常重要。

如果我们讨论的是任意 myfield 的精确子串,我们可以使用 sorting script 从整个字符串长度中减去第一次出现的索引,从而提高较早出现的次数:

{
  "query": { ... },
  "sort": [
    {
      "_script": {
        "script": {
          "params": {
            "substr_value": "cosmopolitan"
          },
          "source": """
            def fieldval = doc['myfield.keyword'].value;
            def indexof = fieldval.indexOf(params.substr_value);
            return indexof == -1 ? _score : _score + (fieldval.length() - indexof)
          """
        },
        "type": "number",
        "order": "desc"
      }
    }
  ]
}

不需要 .keyword 映射——该字段也可以有 fielddata: true 设置——无论哪种方式,我们都需要访问 [=12= 的原始值] 为了让这个脚本工作。


或者,function score query 非常适合这里:

{
  "query": {
    "function_score": {
      "query": {
        "match": {
          "myfield": "cosmopolitan"
        }
      },
      "script_score": {
        
        "script": {
          "params": {
            "substr_value": "cosmopolitan"
          },
          "source": """
            def fieldval = doc['myfield.keyword'].value;
            def indexof = fieldval.indexOf(params.substr_value);
            return indexof == -1 ? _score : (fieldval.length() - indexof)
          """
        }
      },
      "boost_mode": "sum"
    }
  }
}

您可以调整其参数,如 boost_modeweight 等以满足您的需要。

此外,您可能希望对所有出现的子字符串进行加权平均,您可以在这些脚本中这样做。