如何将 1000 个文件移动到 RDD？

How to move 1000 files to RDD's?

我是 Apache Spark 的新手，需要帮助。

我有 python 脚本，可以读取 6 个 tdms 文件（TDMS() 函数）并为每个文件的数值数据构建图形（GRAPH() 函数）。我用 for 循环来做。但是我想加载 1000 个这样的文件，并为每个文件并行地运行这个脚本。所以我想用这些文件创建 RDD，并将我的函数应用于每个文件？

我该怎么做？我可以在 Spark 中定义节点数吗？

您是否尝试过制作 Python 包含您需要读取的所有文件的列表，以及运行那些在 for 循环中从文件读取数据的列表，创建 RDD，运行图表功能，我想保存它？

或者将文件列表设为 RDD，运行那些带有映射、lambda（用于图形）的列表。

如果你只关心并行运行，你可以继续加载数据，做一个大的RDD，然后调用sc.parallelize。您可以决定由 Spark 执行此操作，或者您甚至可以通过调用 sc.parallelize(data, ).

来指定要使用的数字