如何将 1000 个文件移动到 RDD?
How to move 1000 files to RDD's?
我是 Apache Spark 的新手,需要帮助。
我有 python 脚本,可以读取 6 个 tdms 文件(TDMS() 函数)并为每个文件的数值数据构建图形(GRAPH() 函数)。我用 for 循环来做。
但是我想加载 1000 个这样的文件,并为每个文件并行地 运行 这个脚本。所以我想用这些文件创建 RDD,并将我的函数应用于每个文件?
我该怎么做?
我可以在 Spark 中定义节点数吗?
您是否尝试过制作 Python 包含您需要读取的所有文件的列表,以及 运行 那些在 for 循环中从文件读取数据的列表,创建 RDD,运行 图表功能,我想保存它?
或者将文件列表设为 RDD,运行 那些带有映射、lambda(用于图形)的列表。
如果你只关心并行运行,你可以继续加载数据,做一个大的RDD,然后调用sc.parallelize。您可以决定由 Spark 执行此操作,或者您甚至可以通过调用 sc.parallelize(data, ).
来指定要使用的数字
我是 Apache Spark 的新手,需要帮助。
我有 python 脚本,可以读取 6 个 tdms 文件(TDMS() 函数)并为每个文件的数值数据构建图形(GRAPH() 函数)。我用 for 循环来做。 但是我想加载 1000 个这样的文件,并为每个文件并行地 运行 这个脚本。所以我想用这些文件创建 RDD,并将我的函数应用于每个文件?
我该怎么做? 我可以在 Spark 中定义节点数吗?
您是否尝试过制作 Python 包含您需要读取的所有文件的列表,以及 运行 那些在 for 循环中从文件读取数据的列表,创建 RDD,运行 图表功能,我想保存它?
或者将文件列表设为 RDD,运行 那些带有映射、lambda(用于图形)的列表。
如果你只关心并行运行,你可以继续加载数据,做一个大的RDD,然后调用sc.parallelize。您可以决定由 Spark 执行此操作,或者您甚至可以通过调用 sc.parallelize(data, ).
来指定要使用的数字