计算 DataBricks 中各个列的总和

Question

我正在尝试计算 table 中各个列的总和。 table 总共包含 267 列，大部分是 int，一些是 float，还有一个是字符串。我显然可以做到：

SELECT SUM(column1) as column1...
FROM db

有没有办法只显示单个列总和的报告，而不必写 sum(ColumnName) 267 次？使用 SQL

Answer 1

我能想到的一种方法是您可以在 Pyspark 中使用循环来执行此操作，示例如下 -

df_dtypes = sparkDF.dtypes

num_col_list = [c if d not in ['string','datetime','timestamp'] for c,d in df_dtypes]

sum_list = [F.sum(F.col(x)).alias(x) for x in num_col_list]

sparkDF.select(*sum_list).show()

计算 DataBricks 中各个列的总和

Calculating the SUM of individual columns in DataBricks

apache-spark

apache-spark-sql