Python Tabula 库 - 输出文件为空

Python Tabula Library - Output File Is Empty

我正在 Python 中使用 Tabula 模块。 我正在尝试从 PDF 输出文本。

我正在使用此代码:

pdf_read = tabula.read_pdf(
    input_path = "Test File.pdf",
    pages = start_page_number,
    guess=False,
    area=(81.735,18.55,391.285,273.61),
    relative_area = False,
    format="TSV",
    output_path="testing_area.tsv"
    )

当我转到 运行 我的代码时,它显示“输出文件为空。”

知道为什么会这样吗?

编辑: 如果我删除除 input_path 和页面之外的所有内容,我的数据将正确读入 pdf_read,只是不会输出到一个外部文件。

这个选项有问题...嗯...

编辑 #2: 我弄清楚了为什么区域部分不起作用,现在可以了,但由于某种原因我仍然无法输出文件。

编辑 #3: 我试着看这个:

但我不断收到一条错误消息:“build_options() 得到了一个意外的关键字参数 'spreadsheet'

编辑 #4: 我使用的是最新版本的 tabula.py,它没有电子表格选项。

虽然仍然无法输出包含数据的文件。

我不知道上面为什么不起作用,所以 pdf_read 的输出是一个列表。

我将列表转换为数据帧,然后使用 to_csv 输出数据帧。

代码如下:

import pandas as pd

df = pd.DataFrame(pdf_read,columns=["column_a"])

output_df = df.to_csv(

    "alternative_attempt_1.txt",
    header=True,
    index=True,
    sep='\t',
    mode='w',
    encoding="cp1252"

    )