如何提高 azure 搜索非结构化 blob 数据的分数？

how to boost the score in azure search for unstructured blob data?

我正在使用 Azure 搜索，它对导入非结构化数据（pdf、doc、文本、图像文件等）的数据使用默认索引

我没有对默认可用字段进行任何评分配置文件。

门户中的几乎所有设置都是默认设置。如果我通过搜索浏览器搜索任何文本，那么我会得到 JSON 搜索分数非常低的结果。

我阅读了有关使用评分配置文件提高分数的信息。然而，我想找出的条款可以在任何地方的任何文件中。那么我如何决定我可以在哪个字段上增加权重呢？

如何在这些输入文件上生成更多自定义字段？我需要编写文档解析器吗？

我在我的机器人中使用 SDK 4.0 和 c#。

请多多指教。

要使用评分配置文件，您尝试提升的字段必须是索引定义的一部分，否则评分机制将不知道它们。

您提到使用非结构化数据作为来源，我认为这意味着您的数据没有任何稳定或可预测的结构。如果是这种情况，那么您可能无法更新索引定义以准确匹配每个文档的结构，因为不同的文档可能具有不同且不可预测的结构。如果您知道要提升哪些字段，并且知道如何从文档中检索这些字段，那么您可以仅使用您关心的字段更新索引定义，然后使用 "merge" 文档 API 为每个文档填充该字段。

https://docs.microsoft.com/en-us/rest/api/searchservice/addupdate-or-delete-documents

这将需要您从索引中检索所有文档，解析数据以提取您想要增强的字段，然后使用合并 API 将索引数据更新为您提取的数据。完成后，您就可以将该字段用作评分资料的一部分。

如何提高 azure 搜索非结构化 blob 数据的分数？

how to boost the score in azure search for unstructured blob data?

azure-cognitive-search

azure-search-.net-sdk