我可以更改 aws 胶水作业生成的文件名吗?
Can I change the filename generated by aws glue job?
我找不到更改粘合作业生成的文件名的方法。
它创建名为 'run-xxxxx' 的文件,但我想修改它并使用特定名称。这可能吗?
PD:我正在使用 Python 脚本(不是 scala)
Spark(以及所有其他 Hadoop 生态系统工具)使用文件名作为并行读取和写入的手段; Spark 作业将在文件夹中生成与文件夹中的分区一样多的文件 RDD/Dataframe(通常命名为 part-XXX
)。当将 Spark 指向新数据源(无论是 S3、本地 FS 还是 HDFS)时,您始终指向包含所有 part-xxx
文件的文件夹。
我不知道您使用的是哪种工具,但如果它取决于文件名约定,那么您必须在 spark 会话完成后(使用您的 FS 客户端)重命名您的文件(它可以在驱动程序的代码中完成)。请注意,spark 可能(并且通常确实)会生成多个文件。您可以通过在 DataFrame/RDD 上调用 coalesc
来克服这个问题。
我找不到更改粘合作业生成的文件名的方法。 它创建名为 'run-xxxxx' 的文件,但我想修改它并使用特定名称。这可能吗? PD:我正在使用 Python 脚本(不是 scala)
Spark(以及所有其他 Hadoop 生态系统工具)使用文件名作为并行读取和写入的手段; Spark 作业将在文件夹中生成与文件夹中的分区一样多的文件 RDD/Dataframe(通常命名为 part-XXX
)。当将 Spark 指向新数据源(无论是 S3、本地 FS 还是 HDFS)时,您始终指向包含所有 part-xxx
文件的文件夹。
我不知道您使用的是哪种工具,但如果它取决于文件名约定,那么您必须在 spark 会话完成后(使用您的 FS 客户端)重命名您的文件(它可以在驱动程序的代码中完成)。请注意,spark 可能(并且通常确实)会生成多个文件。您可以通过在 DataFrame/RDD 上调用 coalesc
来克服这个问题。