如何使用同一组标签为不同文档布局训练自定义模型?

How to train custom model for different document layouts with the same set of labels?

我正在尝试了解以预建发票模型不支持的语言(例如法语)为发票训练自定义模型的最佳方式是什么。

通常我们会有来自不同供应商的许多不同发票布局,但在所有这些布局中,我们将提取相同的标签集(发票编号、金额、日期、供应商名称等)。

我应该为每个供应商创建一个模型并组合它吗? 如果我这样做,我是否需要为所有供应商培训它,或者它是否适用于未经培训但使用与受过培训的发票相同的措辞的发票?

如果您只想获取发票编号、金额、日期等几个字段。您可以尝试预建发票,看看它是否提取了您需要的数据。它尚未接受过法语或其他语言发票的培训,质量应该较低但可能会起作用。 如果您正在训练自定义模型,则需要为每个提供者训练一个模型,然后将所有单个模型组合成一个组合模型。我建议选择您的顶级供应商并为他们创建模型。

我在 MS QA 网站上得到了 Microsoft 的答复,见下文:
“对于发票(我相信他指的是英文发票)你应该使用预建的发票模型,不需要培训 - https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/concept-invoices
如果您需要训练一个模型而不是使用预构建的模型,那么每个 vendor\provider 模型并组合它们。从顶级供应商开始,以便您获得更多覆盖面。"

查找有关 MS QA Question 的更多信息。