如何从包含文本文件的输入目录创建 RDD？

How do I create an RDD from input directory containing text files?

analysis
machine-learning
bigdata
apache-spark
apache-spark-mllib

我正在使用 20 新闻组数据集。基本上，我有一个文件夹和 n 个文本文件。文件夹中的文件属于文件夹命名的主题。我有20个这样的文件夹。我如何将所有这些数据加载到 Spark 中并从中创建一个 RDD，以便我可以对它们应用机器学习转换和操作？（例如：像朴素贝叶斯）。我正在寻找创建 RDD 的方法。对如何应用算法没有帮助。

您可以使用 SparkConext.wholeTextFiles(...)。它读取目录并为该目录中的所有文件创建 RDD。

如何从包含文本文件的输入目录创建 RDD？

How do I create an RDD from input directory containing text files?

analysis

machine-learning

bigdata

apache-spark

apache-spark-mllib