Elasticsearch 7.10 如何为文档中较早出现的术语赋予更多权重

Question

假设我们在特定字段上针对术语“cosmopolitan”发出查询（确切类型不相关），并假设结果集包含多个文档，每个文档都恰好包含 'k' “国际化”的实例。

通过任何适用的机制（提升、加权、排序等），我希望返回的结果集考虑到文档中“cosmopolitan”的位置，即如果cosmopolitan 较低（更接近文档的开头），然后其 rank/score 较高。

我研究了不同类型的查询和脚本，但似乎找不到适用于此的东西，这看起来很奇怪，因为对于许多域而言，术语位置可能非常重要。

Answer 1

如果我们讨论的是任意 myfield 的精确子串，我们可以使用 sorting script 从整个字符串长度中减去第一次出现的索引，从而提高较早出现的次数：

{
  "query": { ... },
  "sort": [
    {
      "_script": {
        "script": {
          "params": {
            "substr_value": "cosmopolitan"
          },
          "source": """
            def fieldval = doc['myfield.keyword'].value;
            def indexof = fieldval.indexOf(params.substr_value);
            return indexof == -1 ? _score : _score + (fieldval.length() - indexof)
          """
        },
        "type": "number",
        "order": "desc"
      }
    }
  ]
}

不需要 .keyword 映射——该字段也可以有 fielddata: true 设置——无论哪种方式，我们都需要访问 [=12= 的原始值] 为了让这个脚本工作。

或者，function score query 非常适合这里：

{
  "query": {
    "function_score": {
      "query": {
        "match": {
          "myfield": "cosmopolitan"
        }
      },
      "script_score": {
        
        "script": {
          "params": {
            "substr_value": "cosmopolitan"
          },
          "source": """
            def fieldval = doc['myfield.keyword'].value;
            def indexof = fieldval.indexOf(params.substr_value);
            return indexof == -1 ? _score : (fieldval.length() - indexof)
          """
        }
      },
      "boost_mode": "sum"
    }
  }
}

您可以调整其参数，如 boost_mode、weight 等以满足您的需要。

此外，您可能希望对所有出现的子字符串进行加权平均，您可以在这些脚本中这样做。

Elasticsearch 7.10 如何为文档中较早出现的术语赋予更多权重

Elasticsearch 7.10 How to give more weight to terms that appear earlier in a document

lucene

elasticsearch