使用表格引用 PDF 中的最后一页?

Referencing the last page in a PDF with tabula?

我想引用一堆 PDF 文档的最后一页并从中解析表格,但是文档中的页数可能会有所不同。我所知道的是这些文档的最后一页是相同的。

all_tables_stream = tabula.read_pdf(path, password = password, stream = "True", pages = 'all')

有没有一种优雅的方法可以做到这一点,我不必为了找到最后一页的表格而抓取文档中的所有页面?

首先你应该得到页数,例如使用pyPdf

import pyPdf
from tabula import read_pdf

reader = pyPdf.PdfFileReader(open(path, mode='rb' ))
n = reader.getNumPages() 

all_tables_stream = tabula.read_pdf(path, password = password, stream = "True", pages = n)