如何提高 azure 搜索非结构化 blob 数据的分数?

how to boost the score in azure search for unstructured blob data?

我正在使用 Azure 搜索,它对导入非结构化数据(pdf、doc、文本、图像文件等)的数据使用默认索引

我没有对默认可用字段进行任何评分配置文件。

门户中的几乎所有设置都是默认设置。如果我通过搜索浏览器搜索任何文本,那么我会得到 JSON 搜索分数非常低的结果。

我阅读了有关使用评分配置文件提高分数的信息。然而,我想找出的条款可以在任何地方的任何文件中。那么我如何决定我可以在哪个字段上增加权重呢?

如何在这些输入文件上生成更多自定义字段?我需要编写文档解析器吗?

我在我的机器人中使用 SDK 4.0 和 c#。

请多多指教。

要使用评分配置文件,您尝试提升的字段必须是索引定义的一部分,否则评分机制将不知道它们。

您提到使用非结构化数据作为来源,我认为这意味着您的数据没有任何稳定或可预测的结构。如果是这种情况,那么您可能无法更新索引定义以准确匹配每个文档的结构,因为不同的文档可能具有不同且不可预测的结构。如果您知道要提升哪些字段,并且知道如何从文档中检索这些字段,那么您可以仅使用您关心的字段更新索引定义,然后使用 "merge" 文档 API 为每个文档填充该字段。

https://docs.microsoft.com/en-us/rest/api/searchservice/addupdate-or-delete-documents

这将需要您从索引中检索所有文档,解析数据以提取您想要增强的字段,然后使用合并 API 将索引数据更新为您提取的数据。完成后,您就可以将该字段用作评分资料的一部分。