在 python-camelot 中一次阅读所有页面或逐页阅读哪个更好?
What is better, read all pages at once or page by page in python-camelot?
我每天都会 运行 在一个简单的数字海洋实例(1 个 vCPU,1GB 内存)上使用 camelot 从 +-150 页的 PDF 中提取信息并存储在数据库中。对此的最佳做法是什么:
a) 一次阅读所有页面camelot.read_pdf('file.pdf', pages='all', flavor='stream')
?
b) 逐页阅读?
for page in range(150):
camelot.read_pdf('file.pdf', pages=f'{page}', flavor='stream')
谢谢
如果您有足够的内存但您可能没有,您将能够一次阅读所有内容。因此,逐页提取数据可能就是您所认为的 "best",因为在数据提取之后,您将其替换为下一页,这意味着每次您读入新页面时都会释放内存 space从上次开始。
希望这对您有所帮助。 :)
我每天都会 运行 在一个简单的数字海洋实例(1 个 vCPU,1GB 内存)上使用 camelot 从 +-150 页的 PDF 中提取信息并存储在数据库中。对此的最佳做法是什么:
a) 一次阅读所有页面camelot.read_pdf('file.pdf', pages='all', flavor='stream')
?
b) 逐页阅读?
for page in range(150):
camelot.read_pdf('file.pdf', pages=f'{page}', flavor='stream')
谢谢
如果您有足够的内存但您可能没有,您将能够一次阅读所有内容。因此,逐页提取数据可能就是您所认为的 "best",因为在数据提取之后,您将其替换为下一页,这意味着每次您读入新页面时都会释放内存 space从上次开始。
希望这对您有所帮助。 :)