创建 'vocabulary' 以对词频具有相同含义的词进行分组

Question

我使用 CountVectorizer 从 n-gram 分析中得到了这个输出（文本存储在 pandas 数据帧中）：

    Frequency
Words   
playstation 5   106
hours app   32
app store   20
5 playstation   17
hour app    16
... ...

我想知道是否可以创建一个 'vocabulary' 我可以设置的同义词：

playstation 5 = 5 playstation

以便在最终频率列表中求和 106 + 17。这不是关于词形还原而是关于顺序。我可以手动完成，但我想知道如何做。

非常感谢

Answer 1

如何使用 Levenshtein 距离来检查两个词的接近程度

from fuzzywuzzy import fuzz

fuzz.token_sort_ratio('playstation 5','5 playstation')
>> 100
fuzz.token_sort_ratio('playstation 5','4 playstation')
>> 92

我为此使用了 fuzzy wuzzy python 模块。

创建 'vocabulary' 以对词频具有相同含义的词进行分组

Creating a 'vocabulary' to group words having same meaning for word frequency

python

n-gram

pandas