处理 Spark 中的重复数据 dataframes/datasets

Question

我是 Spark 和 Scala 的新手，即使阅读了各种文档，我仍然无法找到解决问题的最佳方法。

我有一个相当大的数据集 (~TB)，可以按如下方式加载到数据框中：

对于在 Spark 中表示数据的任何输入，我将不胜感激。

TIA。

Answer 1

以下是最简单的解决方案之一，其中添加了一个带有常量的新列：

val arr = Array(12.223F, 12.1F, 213.21F)
val df1 = df2.withColumn("info", lit(arr))

Handling repetetive data in Spark dataframes/datasets