如何抓取 pdf 的几页?

How can I scrape several pages of a pdf?

我的代码是这样的:

df = tabula.read_pdf('test.pdf', pages = ['all'])[0]

df.head()

df.to_excel('test.xlsx')`

当我 运行 它时,我的 Excel 中只有第一页...

您阅读了包含所有页面的整个 pdf,但您获取了第一个元素。

df = tabula.read_pdf('test.pdf', pages = ['all'])[0]
                                                 ^^^

我认为您必须删除它并合并它才能将所有页面都添加到 excel。类似的东西:

dfs = tabula.read_pdf(self.file, pages='all')
df = pd.concat(dfs)
df.to_excel("filename.xlsx")

Here 是篇如何处理 pdf 的好文章