使用 Spark 识别不在数据框中的字段

Question

我有以下初始数据框：

ID	City	State
1	LA	CA

场景：我为与上面的初始数据框关联的列创建了一个固定结构。我摄取了一个新的数据集，其中包含一个额外的列。

我想将初始数据帧结构与摄取的新数据集进行比较。新摄取的数据集结构如下：

ID	City	State	Country
1	LA	CA

结果：我想确定不属于初始数据框的列。结果，我的输出应该是 = Country.

我正在使用以下代码来识别与我的数据框关联的字段：

df.schema.names

我试图将上面的代码与初始数据帧的结构进行比较，但没有成功。

Answer 1

手机phone打字不方便，直接打码

init_cols = df.columns
new_cols = new_df.columns
result = ','.join([c for c in new_cols if c not in init_cols])

Identify field not in dataframe using Spark