SparkSQL Dataframe 列的差异

Difference in SparkSQL Dataframe columns

如何找到 2 个数据框列之间的差异? 当我加入 2 个数据帧时,这会导致问题。

df1_cols = df1.columns df2_cols = df2.columns 这将为 2 个列表变量中的 2 个数据框 return 列。

谢谢

df.columns returns 这里有一个列表,因此您可以使用 python 中的任何工具与另一个列表进行比较,即 df2_cols。例如可以使用set查看两个DataFrame中的公共列

df1_cols = df1.columns
df2_cols = df2.columns
set(df1_cols).intersection(set(df2_cols))  # check common columns
set(df1_cols) - set(df2_cols) # check columns in df1 but not in df2
set(df2_cols) - set(df1_cols) # check columns in df2 but not in df1