在 python-camelot 中一次阅读所有页面或逐页阅读哪个更好?

What is better, read all pages at once or page by page in python-camelot?

我每天都会 运行 在一个简单的数字海洋实例(1 个 vCPU,1GB 内存)上使用 camelot 从 +-150 页的 PDF 中提取信息并存储在数据库中。对此的最佳做法是什么:

a) 一次阅读所有页面camelot.read_pdf('file.pdf', pages='all', flavor='stream')?

b) 逐页阅读?

for page in range(150):
   camelot.read_pdf('file.pdf', pages=f'{page}', flavor='stream')

谢谢

如果您有足够的内存但您可能没有,您将能够一次阅读所有内容。因此,逐页提取数据可能就是您所认为的 "best",因为在数据提取之后,您将其替换为下一页,这意味着每次您读入新页面时都会释放内存 space从上次开始。

希望这对您有所帮助。 :)