Tabula 字体警告导致 table 无法从文档中解析。这是它应该如何工作吗?

Tabula font warnings result in table not getting parsed from document. Is this how it is supposed to work?

我解析了 3 个文档以获取表格。结果如下:

  1. 文献1:完美解析。
  2. 文档 2:2019 年 7 月 16 日 5:25:42 下午 org.apache.pdfbox.pdmodel.font.PDType1Font 警告:为 Univers-Bold 使用后备字体 NimbusSanL-Bold 不确定这是否相关,但第二页已被解析而第一页未解析。
  3. 文件 3:2019 年 7 月 17 日 10:21:25 上午 org.apache.pdfbox.pdmodel.font.PDType1Font 警告:为 Univers 使用后备字体 NimbusSanL-Regu。这个没有任何解析。

这些是当前的表格解析设置:

     rows = tabula.read_pdf(filename,
                       pages='all',
                       silent=True,
                       pandas_options={
                           'header': None,
                           'error_bad_lines': False,
                           'warn_bad_lines': False
                       })

是否有其他设置可以解决这个特定问题。

警告来自 tabula-java 所依赖的 PDFBox。不幸的是,问题本身来自 PDF 本身,无法使用 tabula-py 解决。