如何在pyspark的堆栈函数中使用带空格的列名

Question

我试图对数据框进行逆轴旋转，而数据框具有以下结构

我想要这样的数据框：

我写了下面的代码来转换：

df.selectExpr("fstcol","stack(2, 'col 1', col 1, 'col 2', col 2)")

但是，我收到一个错误，因为列名称包含 space。无法获取 'col 1' 和 'col 2' 的列值。

谁能帮我解决这个问题？

Answer 1

您可以像下面这样使用backticks

df.selectExpr("fstcol","stack(2, 'col 1', `col 1`, 'col 2', `col 2`)")

Answer 2

您必须使用反引号：

df.selectExpr("fstcol", "stack(2, 'col 1', `col 1`, 'col 2', `col 2`) as (col_name, value)")

How to use column names with spaces in stack function in pyspark