如何使用 pyspark 将两列值组合到另一列?
How to combine two columns values to another column using pyspark?
这是我用来将值从 csv 映射到 table in sql in aws glue 的代码。
mappings=[
("houseA", "string", "villa", "string"),
("houseB", "string", "small_house", "string"),
("houseA"+"houseB", "string", "combined_key", "string"),
],
我发现将 houseA 和 houseB 分别映射到“villa”和“small_house”列没有问题。但是当我尝试在“combined_key”列中使用 houseAhouseB 时,它给了我这个错误。
An error occurred while calling o128.pyWriteDynamicFrame. Cannot
insert the value NULL into column 'combined_key', table
'dbo.Buildings'; column does not allow nulls. INSERT fails.
我不太明白为什么它会返回空错误。
关于如何修改代码有什么想法吗?
提前致谢。
我实际上发现在 glue studio 中有一个自定义转换可用,我们可以在其中使用 pyspark 代码实现此目的
这是我用来将值从 csv 映射到 table in sql in aws glue 的代码。
mappings=[
("houseA", "string", "villa", "string"),
("houseB", "string", "small_house", "string"),
("houseA"+"houseB", "string", "combined_key", "string"),
],
我发现将 houseA 和 houseB 分别映射到“villa”和“small_house”列没有问题。但是当我尝试在“combined_key”列中使用 houseAhouseB 时,它给了我这个错误。
An error occurred while calling o128.pyWriteDynamicFrame. Cannot insert the value NULL into column 'combined_key', table 'dbo.Buildings'; column does not allow nulls. INSERT fails.
我不太明白为什么它会返回空错误。
关于如何修改代码有什么想法吗?
提前致谢。
我实际上发现在 glue studio 中有一个自定义转换可用,我们可以在其中使用 pyspark 代码实现此目的