表单识别器:一次扫描中的多个文档不适用于带标签的模型
Form Recognizer: Multiple documents in one scan does not work with a labeled Model
我构建了一个带有标签的自定义模型来读取表单。如果扫描仅包含一个表单实例,则此方法效果很好。但是一旦扫描包含相同类型的几种形式,就会创建混杂。
(带有示例标记工具的 Azure Form Recognizer v2.1-preview3)
我原以为在这种情况下,在 analyzeResults / documentResults 下的结果 JSON 中会返回几个数组元素(每个检测到的模型实例一个元素)。但事实似乎并非如此。相反,字段部分从第一个实例读取,部分从第二个实例读取。结果完全错误。
问题:
我是否必须在预处理步骤中将扫描件分成单独的文档?这不是表单识别器的命中注定吗,因为它知道模型。
实际结果:
{
"status": "succeeded",
"createdDateTime": "2021-04-07T09:41:33Z",
"lastUpdatedDateTime": "2021-04-07T09:41:46Z",
"analyzeResult": {
"version": "2.1.0",
"readResults": []
"pageResults": []
"documentResults": [
{
"docType": "xxxxxxx",
"modelId": "xxxxxxx",
"pageRange": [
1,
6
],
"fields": {...}
"docTypeConfidence": 0.778
}
],
"errors": []
}
预期结果:
{
"status": "succeeded",
"createdDateTime": "2021-04-07T09:41:33Z",
"lastUpdatedDateTime": "2021-04-07T09:41:46Z",
"analyzeResult": {
"version": "2.1.0",
"readResults": []
"pageResults": []
"documentResults": [
{
"docType": "xxxxxxxx",
"modelId": "xxxxxxxx",
"pageRange": [
1,
3
],
"fields": {...}
"docTypeConfidence": 0.778
},
{
"docType": "xxxxxxxx",
"modelId": "xxxxxxxx",
"pageRange": [
4,
6
],
"fields": {...}
"docTypeConfidence": 0.778
}
],
"errors": []
}
}
表单识别器需要每个文件的文档类型,如果您的一个文件中有多个不同的文档或表单,请在将文件发送到表单识别器之前将文件拆分为页面或单个文档。您可以为此使用逻辑应用程序或流连接器或任何其他简单代码将文档拆分为页面。
我构建了一个带有标签的自定义模型来读取表单。如果扫描仅包含一个表单实例,则此方法效果很好。但是一旦扫描包含相同类型的几种形式,就会创建混杂。 (带有示例标记工具的 Azure Form Recognizer v2.1-preview3)
我原以为在这种情况下,在 analyzeResults / documentResults 下的结果 JSON 中会返回几个数组元素(每个检测到的模型实例一个元素)。但事实似乎并非如此。相反,字段部分从第一个实例读取,部分从第二个实例读取。结果完全错误。
问题: 我是否必须在预处理步骤中将扫描件分成单独的文档?这不是表单识别器的命中注定吗,因为它知道模型。
实际结果:
{
"status": "succeeded",
"createdDateTime": "2021-04-07T09:41:33Z",
"lastUpdatedDateTime": "2021-04-07T09:41:46Z",
"analyzeResult": {
"version": "2.1.0",
"readResults": []
"pageResults": []
"documentResults": [
{
"docType": "xxxxxxx",
"modelId": "xxxxxxx",
"pageRange": [
1,
6
],
"fields": {...}
"docTypeConfidence": 0.778
}
],
"errors": []
}
预期结果:
{
"status": "succeeded",
"createdDateTime": "2021-04-07T09:41:33Z",
"lastUpdatedDateTime": "2021-04-07T09:41:46Z",
"analyzeResult": {
"version": "2.1.0",
"readResults": []
"pageResults": []
"documentResults": [
{
"docType": "xxxxxxxx",
"modelId": "xxxxxxxx",
"pageRange": [
1,
3
],
"fields": {...}
"docTypeConfidence": 0.778
},
{
"docType": "xxxxxxxx",
"modelId": "xxxxxxxx",
"pageRange": [
4,
6
],
"fields": {...}
"docTypeConfidence": 0.778
}
],
"errors": []
}
}
表单识别器需要每个文件的文档类型,如果您的一个文件中有多个不同的文档或表单,请在将文件发送到表单识别器之前将文件拆分为页面或单个文档。您可以为此使用逻辑应用程序或流连接器或任何其他简单代码将文档拆分为页面。