Tabula 字体警告导致 table 无法从文档中解析。这是它应该如何工作吗?
Tabula font warnings result in table not getting parsed from document. Is this how it is supposed to work?
我解析了 3 个文档以获取表格。结果如下:
- 文献1:完美解析。
- 文档 2:2019 年 7 月 16 日 5:25:42 下午 org.apache.pdfbox.pdmodel.font.PDType1Font
警告:为 Univers-Bold 使用后备字体 NimbusSanL-Bold
不确定这是否相关,但第二页已被解析而第一页未解析。
- 文件 3:2019 年 7 月 17 日 10:21:25 上午 org.apache.pdfbox.pdmodel.font.PDType1Font
警告:为 Univers 使用后备字体 NimbusSanL-Regu。这个没有任何解析。
这些是当前的表格解析设置:
rows = tabula.read_pdf(filename,
pages='all',
silent=True,
pandas_options={
'header': None,
'error_bad_lines': False,
'warn_bad_lines': False
})
是否有其他设置可以解决这个特定问题。
警告来自 tabula-java 所依赖的 PDFBox。不幸的是,问题本身来自 PDF 本身,无法使用 tabula-py 解决。
我解析了 3 个文档以获取表格。结果如下:
- 文献1:完美解析。
- 文档 2:2019 年 7 月 16 日 5:25:42 下午 org.apache.pdfbox.pdmodel.font.PDType1Font 警告:为 Univers-Bold 使用后备字体 NimbusSanL-Bold 不确定这是否相关,但第二页已被解析而第一页未解析。
- 文件 3:2019 年 7 月 17 日 10:21:25 上午 org.apache.pdfbox.pdmodel.font.PDType1Font 警告:为 Univers 使用后备字体 NimbusSanL-Regu。这个没有任何解析。
这些是当前的表格解析设置:
rows = tabula.read_pdf(filename,
pages='all',
silent=True,
pandas_options={
'header': None,
'error_bad_lines': False,
'warn_bad_lines': False
})
是否有其他设置可以解决这个特定问题。
警告来自 tabula-java 所依赖的 PDFBox。不幸的是,问题本身来自 PDF 本身,无法使用 tabula-py 解决。