使用 Spark 识别不在数据框中的字段

Identify field not in dataframe using Spark

我有以下初始数据框:

ID City State
1 LA CA

场景:我为与上面的初始数据框关联的列创建了一个固定结构。我摄取了一个新的数据集,其中包含一个额外的列。

我想将初始数据帧结构与摄取的新数据集进行比较。新摄取的数据集结构如下:

ID City State Country
1 LA CA

结果:我想确定不属于初始数据框的列。结果,我的输出应该是 = Country.

我正在使用以下代码来识别与我的数据框关联的字段:

df.schema.names

我试图将上面的代码与初始数据帧的结构进行比较,但没有成功。

手机phone打字不方便,直接打码

init_cols = df.columns
new_cols = new_df.columns
result = ','.join([c for c in new_cols if c not in init_cols])