如何从包含文本文件的输入目录创建 RDD?

How do I create an RDD from input directory containing text files?

我正在使用 20 新闻组数据集。基本上,我有一个文件夹和 n 个文本文件。文件夹中的文件属于文件夹命名的主题。我有20个这样的文件夹。我如何将所有这些数据加载到 Spark 中并从中创建一个 RDD,以便我可以对它们应用机器学习转换和操作? (例如:像朴素贝叶斯)。我正在寻找创建 RDD 的方法。对如何应用算法没有帮助。

您可以使用 SparkConext.wholeTextFiles(...)。它读取目录并为该目录中的所有文件创建 RDD。