Tabula-py read_pdf_with_template() 方法
Tabula-py read_pdf_with_template() method
我正在尝试将文档的特定部分阅读为 table。它的结构为 table,但单元格、行或列之间没有分界线。
我成功地使用带有 area
和 column
参数的 read_pdf()
方法。我可以准确指定 table 开始和结束的位置以及列的分隔位置。
但是我的 pdf 在每个页面上都有多个不同大小的 tables,没有明确的标记来识别它们,我必须使用这些参数。
我在 Github 回购问题 here, and a bit more about it in the documentation, pull request and the example notebook 中发现了 read_pdf_with_template()
方法。
但没有任何地方提到如何构建 teamplate.json
以及我可以使用哪些参数或它们的含义。
我尝试将 area
坐标插入 x1, y1, x2, y2
,在方法参数和 height
、width
参数中传递列列表,其大小为 table.
但它拾取了 pdf 的顶部中心部分,该部分不等于我在反向计算所有内容时插入的任何坐标。
这是我正在尝试阅读的页面(我删除了一些敏感数据)
这是代码片段
import tabula
tables = tabula.read_pdf_with_template(input_path = "test.pdf", template_path = "template.json", columns=[195, 310, 380])
print(tables[0])
[
{
"page": 1,
"extraction_method": "stream",
"x1": 225,
"x2": 35,
"y1": 375,
"y2": 565,
"width": 525,
"height": 400
}
]
我只是个笨蛋。
模板不是您手动生成的东西。它们应该由提到的 tabula 应用程序生成 here。
只需从 official website 下载表格。启动应用程序后,它非常简单。手动单击并拖动每个页面上的每个 table,然后单击顶部的下载模板按钮。
我正在尝试将文档的特定部分阅读为 table。它的结构为 table,但单元格、行或列之间没有分界线。
我成功地使用带有 area
和 column
参数的 read_pdf()
方法。我可以准确指定 table 开始和结束的位置以及列的分隔位置。
但是我的 pdf 在每个页面上都有多个不同大小的 tables,没有明确的标记来识别它们,我必须使用这些参数。
我在 Github 回购问题 here, and a bit more about it in the documentation, pull request and the example notebook 中发现了 read_pdf_with_template()
方法。
但没有任何地方提到如何构建 teamplate.json
以及我可以使用哪些参数或它们的含义。
我尝试将 area
坐标插入 x1, y1, x2, y2
,在方法参数和 height
、width
参数中传递列列表,其大小为 table.
但它拾取了 pdf 的顶部中心部分,该部分不等于我在反向计算所有内容时插入的任何坐标。
这是我正在尝试阅读的页面(我删除了一些敏感数据)
这是代码片段
import tabula
tables = tabula.read_pdf_with_template(input_path = "test.pdf", template_path = "template.json", columns=[195, 310, 380])
print(tables[0])
[
{
"page": 1,
"extraction_method": "stream",
"x1": 225,
"x2": 35,
"y1": 375,
"y2": 565,
"width": 525,
"height": 400
}
]
我只是个笨蛋。
模板不是您手动生成的东西。它们应该由提到的 tabula 应用程序生成 here。
只需从 official website 下载表格。启动应用程序后,它非常简单。手动单击并拖动每个页面上的每个 table,然后单击顶部的下载模板按钮。