如何制作不在另一个数据框中的单词列表

How to make list of words that are not in another dataframe

我遇到了 python pandas 数据框问题。我有两个内容不同的数据框。我想输出不在数据帧 2 中的单词并将它们存储在新的数据帧中。有人可以使用 python pandas 数据框帮助我解决这个问题吗?谢谢你...

其中数据框 1 包含:
鸣叫
明天的 Bismillah 阿明
共享位置
回复 shahrilPng
是时候完成悬而未决的事情了
向上并平行
当你运行完成你的梦想

数据框 2 包含:

明天
共享
地点
时间
结束
待办的
平行线
运行

梦想

我想要的输出
结果
比斯米拉
为了
阿敏
回复中

沙里尔Png
等等

一种方法是将数据帧变成扁平集,找到差异并将它们放入 dtaframe

import pandas as pd
import numpy as np
df1_set = set(np.ravel(df1.values))
df2_set = set(np.ravel(df2.values))
pd.DataFrame(df1_set - df2_set).dropna()  

拆分并分解您的 tweets 数据框并检查每个词是否出现在您的 words 数据框中:

# check function
not_in_list = lambda x: ~x.str.casefold().isin(df2['Words'].str.casefold())

out = df1['Tweet'].str.split().explode().loc[not_in_list] \
                  .drop_duplicates().reset_index(drop=True).to_frame('Results')
print(out)

# Output
       Results
0    Bismillah
1          for
2         Amin
3     Replying
4           to
5   shahrilPng
6         It's
7       what's
8         been
9           up
10         and
11        When
12         you
13        your