使用 Spark 识别不在数据框中的字段
Identify field not in dataframe using Spark
我有以下初始数据框:
ID
City
State
1
LA
CA
场景:我为与上面的初始数据框关联的列创建了一个固定结构。我摄取了一个新的数据集,其中包含一个额外的列。
我想将初始数据帧结构与摄取的新数据集进行比较。新摄取的数据集结构如下:
ID
City
State
Country
1
LA
CA
结果:我想确定不属于初始数据框的列。结果,我的输出应该是 = Country.
我正在使用以下代码来识别与我的数据框关联的字段:
df.schema.names
我试图将上面的代码与初始数据帧的结构进行比较,但没有成功。
手机phone打字不方便,直接打码
init_cols = df.columns
new_cols = new_df.columns
result = ','.join([c for c in new_cols if c not in init_cols])
我有以下初始数据框:
ID | City | State |
---|---|---|
1 | LA | CA |
场景:我为与上面的初始数据框关联的列创建了一个固定结构。我摄取了一个新的数据集,其中包含一个额外的列。
我想将初始数据帧结构与摄取的新数据集进行比较。新摄取的数据集结构如下:
ID | City | State | Country |
---|---|---|---|
1 | LA | CA |
结果:我想确定不属于初始数据框的列。结果,我的输出应该是 = Country.
我正在使用以下代码来识别与我的数据框关联的字段:
df.schema.names
我试图将上面的代码与初始数据帧的结构进行比较,但没有成功。
手机phone打字不方便,直接打码
init_cols = df.columns
new_cols = new_df.columns
result = ','.join([c for c in new_cols if c not in init_cols])