Azure 搜索 - 使用 Microsoft English Analyzer 增加索引的大小
Azure search - Using Microsoft English Analyzer increases size of Index
早些时候我的索引使用的是lucene分析器。我把它改成了微软。现在索引的大小已经大大增加了。为什么尺寸会增加这么多。 ? P.S。附件。
预计索引大小会有所不同。对于文档中的每个单词,Microsoft 分析器都会生成原始单词和该单词的基本形式,例如,如果您的文档中包含单词 运行ning,Azure 搜索将索引两个术语:运行ning 和 运行。有关详细信息,请参阅以下 post 中的回答:
Lucene 分析器会阻止导致索引中唯一术语较少的单词。
您可以在此处详细了解差异:https://docs.microsoft.com/en-us/rest/api/searchservice/Language-support?redirectedfrom=MSDN
根据 analyzer/language 对索引大小的影响会有所不同。您可以使用 Analyze API: https://docs.microsoft.com/en-us/rest/api/searchservice/test-analyzer.
测试您正在使用的分析器的行为
话虽如此,您看到的差异超出了我的预期。请通过 Microsoft 的 janusz.lembicz 与我联系,讨论您的方案的详细信息。
早些时候我的索引使用的是lucene分析器。我把它改成了微软。现在索引的大小已经大大增加了。为什么尺寸会增加这么多。 ? P.S。附件。
预计索引大小会有所不同。对于文档中的每个单词,Microsoft 分析器都会生成原始单词和该单词的基本形式,例如,如果您的文档中包含单词 运行ning,Azure 搜索将索引两个术语:运行ning 和 运行。有关详细信息,请参阅以下 post 中的回答:
Lucene 分析器会阻止导致索引中唯一术语较少的单词。 您可以在此处详细了解差异:https://docs.microsoft.com/en-us/rest/api/searchservice/Language-support?redirectedfrom=MSDN
根据 analyzer/language 对索引大小的影响会有所不同。您可以使用 Analyze API: https://docs.microsoft.com/en-us/rest/api/searchservice/test-analyzer.
测试您正在使用的分析器的行为话虽如此,您看到的差异超出了我的预期。请通过 Microsoft 的 janusz.lembicz 与我联系,讨论您的方案的详细信息。