我们可以使用 wholeTextFile 中的文件名来保存数据帧吗?

Can we use filename from wholeTextFile to save a dataFrame?

我在 S3 存储桶中有多个格式为 'CHNC_P0BCDNAF_20200217' 的文件。我想一个一个地读取每个文件并在pyspark中做一些处理。处理后,我将处理后的镶木地板文件保存在一个从文件名中分离出来的日期文件夹中。 每个文件处理应该是单独的 spark 作业 例如,对于上述文件,日期文件夹将为 20200217.

我可以从 wholeTextFile 中拆分文件名和日期,但不能使用它们来创建日期文件夹

我找到了解决方案。我使用 shell 脚本列出了我在 s3 中的所有输入文件名。然后我通过遍历每个文件来执行我的 spark 作业。通过将文件名作为参数传递给火花作业,我能够将每个文件作为不同的火花作业进行处理。我从 wholetextfile 本身拆分了文件名和日期并保存在我的数据框中。谢谢