rdd在pyspark数据框中是什么意思
What does rdd mean in pyspark dataframe
我是 pyspark 的新手。我想知道 rdd 在 pyspark 数据帧中是什么意思。
weatherData = spark.read.csv('weather.csv', header=True, inferSchema=True)
这两行代码的输出是一样的。我想知道 rdd
有什么影响
weatherData.collect()
weatherData.rdd.collect()
数据框是一种 table 或类似于二维数组的结构,其中每一列包含一个变量的测量值,每一行包含一个案例。
因此,DataFrame
由于其表格格式而具有额外的元数据,这允许 Spark 运行 对最终查询进行某些优化。
另一方面,一个 RDD
仅仅是一个 R弹性 D 分布式 D 数据集更像是一个无法优化的数据黑盒,因为可以对其执行的操作不受限制。
但是,您可以通过其 .rdd
方法从 DataFrame
转到 RDD
,并且可以从 RDD 转到 DataFrame(如果 RDD 在表格格式)通过 .toDF()
方法
一般来说,由于内置查询优化,建议尽可能使用 DataFrame。
我是 pyspark 的新手。我想知道 rdd 在 pyspark 数据帧中是什么意思。
weatherData = spark.read.csv('weather.csv', header=True, inferSchema=True)
这两行代码的输出是一样的。我想知道 rdd
有什么影响weatherData.collect()
weatherData.rdd.collect()
数据框是一种 table 或类似于二维数组的结构,其中每一列包含一个变量的测量值,每一行包含一个案例。
因此,DataFrame
由于其表格格式而具有额外的元数据,这允许 Spark 运行 对最终查询进行某些优化。
一个 RDD
仅仅是一个 R弹性 D 分布式 D 数据集更像是一个无法优化的数据黑盒,因为可以对其执行的操作不受限制。
但是,您可以通过其 .rdd
方法从 DataFrame
转到 RDD
,并且可以从 RDD 转到 DataFrame(如果 RDD 在表格格式)通过 .toDF()
方法
一般来说,由于内置查询优化,建议尽可能使用 DataFrame。