是否可以从数据集生成 pdf 并逐步保存到铸造厂

is it possible to generate pdf from datasets and save to foundry incrementally

FPDF 是一个允许将 pandas 数据框转换为格式良好的 pdf 报告的库。 Foundry 代码回购或代码工作簿中是否有将 pdf 文件从 spark 或 pandas 数据帧写入 foundry 的功能?

我需要从筛选到几行的铸造数据集创建格式良好的 pdf 报告。

在用户 https://whosebug.com/users/4922673/jackfischer 的帮助下,我能够满足要求, 但是,代码会覆盖现有文件,每次代码 运行 时如何使用新文件增量更新数据集。 我正在使用代码工作簿模板功能将参数传递给逻辑,每次传递新参数时,逻辑如何创建新文件

示例:

  1. samplefile.txt
  2. samplefile2.txt

虽然我不是特别熟悉 FPDF 库,但 Foundry 支持从转换或代码工作簿中的数据集生成文件。

要从您的数据集创建单个基于 Pandas 的 PDF,请将您的数据集转换为 Pandas 并从 Foundry 获取输出文件句柄,例如。在代码工作簿中,

def pdf_dataset(input_df):
    output = Transforms.get_output()
    pd = input_df.toPandas()
    output_fs = output.filesystem()
        with output_fs.open(output_file_path, "wb") as f:
            # use FDPF as needed

或者,您可以通过 Spark 并行创建每行 PDF。这可以通过构建数据来最轻松地完成,这样生成每个 PDF 所需的参数都位于行中,然后您可以从那里 运行 一个 Python 函数来生成 PDF 并将其写出Python 目标数据集的内存。

在代码工作簿中,这类似于

def pdf_dataset(input_df):
    output = Transforms.get_output()

    def generate_pdf(row):
        output_fs = output.filesystem()
        with output_fs.open(output_file_path, "wb") as f:
            # use FDPF as needed
            
    input_df.rdd.foreach(generate_pdf)