我可以更改 aws 胶水作业生成的文件名吗？

Can I change the filename generated by aws glue job?

aws-glue

我找不到更改粘合作业生成的文件名的方法。它创建名为 'run-xxxxx' 的文件，但我想修改它并使用特定名称。这可能吗？ PD：我正在使用 Python 脚本（不是 scala）

Spark（以及所有其他 Hadoop 生态系统工具）使用文件名作为并行读取和写入的手段； Spark 作业将在文件夹中生成与文件夹中的分区一样多的文件 RDD/Dataframe（通常命名为 part-XXX）。当将 Spark 指向新数据源（无论是 S3、本地 FS 还是 HDFS）时，您始终指向包含所有 part-xxx 文件的文件夹。

我不知道您使用的是哪种工具，但如果它取决于文件名约定，那么您必须在 spark 会话完成后（使用您的 FS 客户端）重命名您的文件（它可以在驱动程序的代码中完成）。请注意，spark 可能（并且通常确实）会生成多个文件。您可以通过在 DataFrame/RDD 上调用 coalesc 来克服这个问题。

我可以更改 aws 胶水作业生成的文件名吗？

Can I change the filename generated by aws glue job?

aws-glue