从pdf中提取数据并制作列表列表

extracting data from pdf and make a list of lists

我需要一些帮助来从 pdf 中提取和处理数据。 下面有问题的 pdf,link:https://www.england.nhs.uk/wp-content/uploads/2018/04/national-tables-5-mgml-v3.pdf national dose band screenshot

我想要的是创建一个列表列表,其中第 1 列和第 3 列的项目如下所示:oxalirange = ([5.75, 6.24], [6.25, 6.74], [6.75, 7.24], ...

我知道如何通过 Camelot 和 pandas 将 pdf 提取为 excel table,然后我一直在做的是手动编译列表,所以我'我想知道如何通过 python 和 pandas(或任何其他 python 库)实现自动化 我很高兴被指出到最相关的网站,这样我就可以自己找到信息。 提前致谢。

您可以使用 python 中的 xlrd 库来读取 excel 文件,这里是 link 他们的文档,但是它仅限于 .xls 文件(旧 excel)

https://xlrd.readthedocs.io/en/latest/

但这里是与 excel

相关的替代库列表

https://www.python-excel.org/