Spark DataSet 有效地获取整行的长度大小

Question

我正在使用不同大小的数据集，每个数据集都具有动态大小的列 - 对于我的应用程序，我需要知道字符的整个行长度以估计整个行的大小（以字节或千字节为单位）。

整个行大小（以 KB 为单位）的结果将写入新列。

private void writeMyData(Dataset<Row> dataSet){

        Column[] columns = Arrays.stream(dfToWrite.columns()).map(col-> functions.col(col)).toArray(Column[]::new);

        dataSet.withColumn("marker", functions.length(functions.concat_ws( dataSet.columns()[3],columns))).write().partitionBy(hivePartitionColumn)
                .option("header", "true")
                .mode(SaveMode.Append).format(storageFormat).save(pathTowrite);

}

因为我none的方法org.apache.spark.sql.functionsreturnColumn[] 所以我不得不使用 dataSet.columns() 并收集它。

但是每次都使用嵌套操作function.method似乎效率不高。

我宁愿有一个函数大小可以得到 Column[] 和 return 整个列的长度。而不是嵌套操作。

有什么方法可以帮助我使用 UDF 函数来进行这种操作吗？或者这种操作有现成的功能吗？
使用这种解决方案有多糟糕？

Java 解决方案是首选。

Answer 1

使用 spark Dataframe UDF 的不错的解决方案我曾经获得字节长度，这对我的情况更好：

static UDF1 BytesSize = new UDF1<String, Integer>() {
    public Integer call(final String line) throws Exception {
        return line.getBytes().length;
    }
};

private void saveIt(){

sparkSession.udf().register("BytesSize",BytesSize,DataTypes.IntegerType);
    dfToWrite.withColumn("fullLineBytesSize",callUDF("BytesSize",functions.concat_ws( ",",columns)) ).write().partitionBy(hivePartitionColumn)
                    .option("header", "true")
                    .mode(SaveMode.Append).format(storageFormat).save(pathTowrite);
}

Spark DataSet 有效地获取整行的长度大小

Spark DataSet efficiently get length size of entire row

java

apache-spark

spark-dataframe