如何将具有值的列添加到 Spark Java 中的新数据集？

Question

因此，我正在从 java Spark API 创建一些数据集。这些数据集是使用 spark.sql() 方法从配置单元 table 填充的。

因此，在执行一些 sql 操作（如连接）后，我得到了最终数据集。我想要做的是，我想向最终数据集添加一个新列，数据集中所有行的值为“1”。因此，您可能会将其视为向数据集添加约束。

所以，例如我有这个数据集：

Dataset<Row> final = otherDataset.select(otherDataset.col("colA"), otherDataSet.col("colB"));

我想向 "final" 数据集添加一个新列，像这样

final.addNewColumn("colName", 1); //I know this doesn't work, but just to give you an idea.

是否有可行的方法将新列添加到值为 1 的数据集的所有行？

Answer 1

如果你想添加一个常量值那么你可以使用lit函数

lit(Object literal)
Creates a Column of literal value.

此外，将变量名 final 更改为其他名称

Dataset<Row> final12 = otherDataset.select(otherDataset.col("colA"), otherDataSet.col("colB"));


Dataset<Row> result = final12.withColumn("columnName", lit(1))

希望对您有所帮助！

如何将具有值的列添加到 Spark Java 中的新数据集？

How can I add a column with a value to a new Dataset in Spark Java?

java

dataset

bigdata

apache-spark

apache-spark-dataset