检测不正确的自定义模型 - 在表单识别器中组合模型
Detecting incorrect custom model - Compose model in Form Recognizer
我创建了一个包含多个自定义模型的组合模型。对于一份本应使用模型 A 进行分析的特定文档,最终使用了不正确的模型 B。
这里有几个具体要知道的:
- 应用程序可以完全填充或部分填充(所以我将两者都添加到我的训练集中)
- 讨论中的两个模型都是在格式完全不同的申请表上训练的
观察:
- 如果测试文档是在模型A(正确的模型)上测试的,则置信度为80%
- 如果测试文档是在compose模型上测试的,则取modelB进行分析,本例docType置信度为21%
Q1) compose 模型不是应该用最佳拟合模型进行分析吗?在这种情况下,模型 A 最合适。但是选择了模型B。
Q2) 组成大量模型(比如在 40 个范围内)时,训练的最佳实践是什么
Q3) 如何解决此类问题?
组合模型选择最适合的模型来分析文档。模型 A 和模型 B 中的文档在结构上是否相似?如果文档相似,则为两个文档创建单个模型可能会获得更高的准确性。尝试将模型 B 中的文档添加到模型 A 的训练集中,并在没有模型 B 的情况下进行组合,看看这是否会提高组合模型的准确性。
我收到了微软团队的回复,compose 模型的工作方式似乎在 3.0 版本上有所改进。我在 Form Recognizer Studio (3.0) 上尝试使用完全相同的训练数据,并且撰写功能按预期工作!
我创建了一个包含多个自定义模型的组合模型。对于一份本应使用模型 A 进行分析的特定文档,最终使用了不正确的模型 B。
这里有几个具体要知道的:
- 应用程序可以完全填充或部分填充(所以我将两者都添加到我的训练集中)
- 讨论中的两个模型都是在格式完全不同的申请表上训练的
观察:
- 如果测试文档是在模型A(正确的模型)上测试的,则置信度为80%
- 如果测试文档是在compose模型上测试的,则取modelB进行分析,本例docType置信度为21%
Q1) compose 模型不是应该用最佳拟合模型进行分析吗?在这种情况下,模型 A 最合适。但是选择了模型B。
Q2) 组成大量模型(比如在 40 个范围内)时,训练的最佳实践是什么
Q3) 如何解决此类问题?
组合模型选择最适合的模型来分析文档。模型 A 和模型 B 中的文档在结构上是否相似?如果文档相似,则为两个文档创建单个模型可能会获得更高的准确性。尝试将模型 B 中的文档添加到模型 A 的训练集中,并在没有模型 B 的情况下进行组合,看看这是否会提高组合模型的准确性。
我收到了微软团队的回复,compose 模型的工作方式似乎在 3.0 版本上有所改进。我在 Form Recognizer Studio (3.0) 上尝试使用完全相同的训练数据,并且撰写功能按预期工作!