
Does reading multiple files & collect bring them to driver in spark


 val inp = sc.textFile("C:\mk\logdir\*\*\log.txt")
Q1 )我正在读取多个文件(存在于上述文件夹结构中)。我相信在这种情况下,每个文件都将被创建为分区,并将被发送到单独的节点并并行执行。我的理解正确吗?有人可以证实这一点吗?或者有什么可以系统地确认的吗?

Q2) spark 如何处理这种情况。虽然我正在收集,但我认为它不会收集所有文件的所有内容,而只会收集一个文件。我对吗?有人可以帮助我理解这一点吗?


Spark 是一种用于大规模数据处理的快速通用引擎。它并行处理所有数据。因此,要回答第一个问题,然后,在以下情况下:

每个文件将被创建为分区,并将被发送到单独的节点并并行执行。但是,根据文件的大小,分区数可能大于正在处理的文件数。例如,如果 folder1folder2 中的 log.txt 的大小只有几 KB,那么只会创建 2 个分区,因为会有 2 个文件,它们将被并行处理。

但是,如果 folder1 中的 log.txt 的大小以 GB 为单位,则会为其创建多个分区,并且分区数将大于文件数。

但是,我们总是可以使用 repartition()coalesce() 方法更改 RDD 的分区数。


Spark 将从所有文件中收集内容,而不仅仅是从一个文件中收集内容。因为,collect()的意思是获取存储在一个RDD中的所有内容,并以集合的形式返回给Driver。

Q1 )Here I am reading multiple files (which are present in above folder structure). I believe in this case each file will be created as partition & will be sent to separate node & executed parallely. Am I correct in my understanding? Can someone confirm this? Or is there anyway i can confirm it systematically?


SparkContext 的 TextFile 方法,即 sc.textFile 创建一个 RDD,每行作为一个元素。如果数据中有 10 个文件,即 yourtextfilesfolder 文件夹,将创建 10 个分区。您可以通过以下方式验证分区数:



& 'minPartitions' - 生成的 RDD



val distFile = sc.textFile("data.txt")
Above command returns the content of the file:
scala> distFile.collect()
res16: Array[String] = Array(1,2,3, 4,5,6)

 SparkContext.wholeTextFiles can return (filename, content).
    val distFile = sc.wholeTextFiles("/tmp/tmpdir")

scala> distFile.collect()
res17: Array[(String, String)] =
"), (maprfs:/tmp/tmpdir/data.txt,"1,2,3
"), (maprfs:/tmp/tmpdir/data2.txt,"1,2,3

在你的情况下,我更喜欢 SparkContext.wholeTextFiles 如果你想要的话,你可以在如上所述收集后获取文件名及其内容。