检查其他 Dataframe 上是否存在值

Question

我有两个数据框 F1 和 F2，其中包含列 id1、id2。

F1 包含两列 F1[id1,id2].
F2 包含三列 [id1,id2,Description] 我想测试 F2['id1'] 是否存在于 F1['id1'] 或 F2['id2']exists inF1['id2'] 中，然后我必须在 F1 中添加一个带有描述的列F2` 中的这个 id1 或 id2。 F1 和 F2 的内容是 are HERE. The Output That im attending on F1 is also HERE 我像这样创建了 F1 和 F2

     F1 = {'id1': ['x22', 'x13','NaN','x421'],'id2':['NaN','223','788','NaN']}
     F1 = pd.DataFrame(data=F1)
     F2 = {'id1': ['x22', 'NaN','NaN','x413','x421'],'id2':['NaN','223','788','NaN','233'],'Description':['California','LA','NY','Havnover','Munich']}
     F2 = pd.DataFrame(data=F2)

实际上我尝试了几种解决方案。但没有什么能帮助我做到这一点。请帮忙

Answer 1

使用：

#if necessary replace string NaN to missing values
F1 = F1.replace('NaN', np.nan)
F2 = F2.replace('NaN', np.nan)

对于每列删除重复项 DataFrame.drop_duplicates, missing valeus by DataFrame.dropna and create index by id column by DataFrame.set_index:

s1 = F2.drop_duplicates('id1').dropna(subset=['id1']).set_index('id1')['Description']
s2 = F2.drop_duplicates('id2').dropna(subset=['id2']).set_index('id2')['Description']

然后使用Series.map by columns from F1 with Series.combine_first:

F1['Description'] = F1['id1'].map(s1).combine_first(F1['id2'].map(s2))
print (F1)
    id1  id2 Description
0   x22  NaN  California
1   x13  223          LA
2   NaN  788          NY
3  x421  NaN      Munich

检查其他 Dataframe 上是否存在值

check the existence of value on other Dataframe

python

list

dataframe

np

pandas