在 PySpark 中的两个不同 pyspark.sql.dataframe 的两列中创建 pyspark.sql.dataframe
Creating a pyspark.sql.dataframe out of two columns in two different pyspark.sql.dataframes in PySpark
假设 pyspark 中的以下两个 Dataframes 具有相同的行数:
df1:
|_ Column1a
|_ Column1b
df2:
|_ Column2a
|_ Column2b
我想创建一个只有 Column1a 和 Column 2a 的新 DataFrame "df"。最好的解决方案是什么?
Denny Lee 的回答就是这样。
它涉及在两个 DataFrame 上创建另一列,即每一行的 Unique_Row_ID。然后我们在 Unique_Row_ID 上执行连接。如果需要,然后删除 Unique_Row_ID。
假设 pyspark 中的以下两个 Dataframes 具有相同的行数:
df1:
|_ Column1a
|_ Column1b
df2:
|_ Column2a
|_ Column2b
我想创建一个只有 Column1a 和 Column 2a 的新 DataFrame "df"。最好的解决方案是什么?
Denny Lee 的回答就是这样。
它涉及在两个 DataFrame 上创建另一列,即每一行的 Unique_Row_ID。然后我们在 Unique_Row_ID 上执行连接。如果需要,然后删除 Unique_Row_ID。