自定义培训 将 PDF 提取到 table
Custom training Extract PDF into table
我有一个包含 table 的 PDF
文件,我想将其转换为 table 结构化数据。
我的 PDF
文件包含一个非常复杂的 table,这使得大多数工具都不够用。例如,
我尝试使用以下工具,但它们并没有很好地提取它:AWS Textract
、Google AI Document
、Google Vision
、Microsoft Text Recognition
。
实际上,Google AI Document
成功地完成了大约 70% 的正确率,但还不够好。
所以,我搜索了一种自定义火车模型的方法,以便在提取此 table 时能够正确提取它。我尝试了 Power Apps AI Builder 和 Google AutoML
实体提取,但它们都没有帮助(顺便说一句,我不是 AutoML 的目的,它是用于预测还是可以自定义 table 提取? ).
我想知道哪些工具适合我的用例,是否有任何 (AI) 工具可以用来训练这类 tables,这样文本提取将是更好。
如果渲染得足够清晰,大多数文本提取器应该保留该结构,但布局可能有很多变化无常的错误树。
它在这里正确地发现了 reaar 的拼写错误,但在 05.05.1983 的第一行中失败了
在相同的第二遍上,失败是不同的
3 29.06.1983 Part of Ground Floor of 05.05.1983 GM315727
2 (part of) Conavon Court 25 years from
1.3.1983
4 31.01.1984 Part of Third Floor Conavon 30.12.1983 GM335793
4 (part of) Court 25 years from
12.8.1983
5 19.04.1984 I?art of Basement Floor of 23.01.1984 GM342693
l (part of), 2 Conavon C:ourt 25 years from
(part of), 3 20.01.1984
(part Of ) , 4
(part of)
NOTE: The Lease also grants a right of way for the purpose only of
loading and unloading and reserves a right of way in case of emergency
only from the boiler house adjacent hereto
6 14.06.1984 Part of Third Floor Conavon 31.10.1983 GM347623
3 (part of) Court 25 years from
31.10.1983
7 14.06.1984 Part of the Third Floor 31.10.1983 GM347623
3 (part: of}, 4 Conavon Court 25 years from
(part of) 31.10.1983
8 01.10.1984 "The Italian Stallion'' 17.08.1984 GM357142
4 (part of) Conavon Court (Basement) 25 years from
20.1.1984
NOTE: The Lease also grants a right of way for the purpose only of
loading and unloading and a right of access through the security door
at the reaar of the building
9 06.07.2016 3rd floor 14-16 Blackfriars 28.06.2016
4 (part of}, 5 Streec 5 years from
(part of) 25/06/2016
这就是 OCR 的美妙之处,每个 运行 每个字符的通过率可能不同,因此经验表明使用三个估计值中的最佳值。因此运行 3种不同的方式和逐个字符的比较保持一致。
我有一个包含 table 的 PDF
文件,我想将其转换为 table 结构化数据。
我的 PDF
文件包含一个非常复杂的 table,这使得大多数工具都不够用。例如,
我尝试使用以下工具,但它们并没有很好地提取它:AWS Textract
、Google AI Document
、Google Vision
、Microsoft Text Recognition
。
实际上,Google AI Document
成功地完成了大约 70% 的正确率,但还不够好。
所以,我搜索了一种自定义火车模型的方法,以便在提取此 table 时能够正确提取它。我尝试了 Power Apps AI Builder 和 Google AutoML
实体提取,但它们都没有帮助(顺便说一句,我不是 AutoML 的目的,它是用于预测还是可以自定义 table 提取? ).
我想知道哪些工具适合我的用例,是否有任何 (AI) 工具可以用来训练这类 tables,这样文本提取将是更好。
如果渲染得足够清晰,大多数文本提取器应该保留该结构,但布局可能有很多变化无常的错误树。
它在这里正确地发现了 reaar 的拼写错误,但在 05.05.1983 的第一行中失败了
在相同的第二遍上,失败是不同的
3 29.06.1983 Part of Ground Floor of 05.05.1983 GM315727
2 (part of) Conavon Court 25 years from
1.3.1983
4 31.01.1984 Part of Third Floor Conavon 30.12.1983 GM335793
4 (part of) Court 25 years from
12.8.1983
5 19.04.1984 I?art of Basement Floor of 23.01.1984 GM342693
l (part of), 2 Conavon C:ourt 25 years from
(part of), 3 20.01.1984
(part Of ) , 4
(part of)
NOTE: The Lease also grants a right of way for the purpose only of
loading and unloading and reserves a right of way in case of emergency
only from the boiler house adjacent hereto
6 14.06.1984 Part of Third Floor Conavon 31.10.1983 GM347623
3 (part of) Court 25 years from
31.10.1983
7 14.06.1984 Part of the Third Floor 31.10.1983 GM347623
3 (part: of}, 4 Conavon Court 25 years from
(part of) 31.10.1983
8 01.10.1984 "The Italian Stallion'' 17.08.1984 GM357142
4 (part of) Conavon Court (Basement) 25 years from
20.1.1984
NOTE: The Lease also grants a right of way for the purpose only of
loading and unloading and a right of access through the security door
at the reaar of the building
9 06.07.2016 3rd floor 14-16 Blackfriars 28.06.2016
4 (part of}, 5 Streec 5 years from
(part of) 25/06/2016
这就是 OCR 的美妙之处,每个 运行 每个字符的通过率可能不同,因此经验表明使用三个估计值中的最佳值。因此运行 3种不同的方式和逐个字符的比较保持一致。