如何确定为什么某些文档在 SOLR 响应中返回可能与给定关键字搜索不相关?

How do identify why certain documents are returned in SOLR response that may not be relevant for given keyword search?

我们在 WCS SOLR 响应中看到某些文档与给定的搜索关键字不相关,但属于当前 customer/site 目录和类别的一部分。我确实看到了 SOLR 调试信息、解析器查询、过滤器等。但我想知道是否有可能知道响应中包含文档的原因。我确实看到了 explain string 并且没有花时间理解它背后的整个算法,想看看是否有一种快速的方法来知道为什么文档在 result/response 列表中。这可能有助于识别 catalog/categories 数据结构问题或我们的 SOLR 实施中的任何错误。

是否可以在响应中查看每个返回文档级别的调试信息,如果这有助于理解 SOLR 的配置方式和在环境中的工作方式?

谢谢,

当您在请求中传递 debugQuery=true 时,您可以在响应的 debug/explain 节点中看到每个文档得分的原因。信息将大致如下所示:

...
"debug": {
  ...
  "explain": {
    "id:1": "info about the score for document 1",
    "id:2": "info about the score for document 2",
    "id:3": "info about the score for document 2",
    "id:4": "info about the score for document 4",
    ...
  }
}

这些信息不太容易解析和破译,但它可能是一个不错的起点。

我在这篇博客post中详细解释了如何阅读explain部分中的信息:https://library.brown.edu/DigitalTechnologies/understanding-scoring-of-documents-in-solr/