创建 'vocabulary' 以对词频具有相同含义的词进行分组
Creating a 'vocabulary' to group words having same meaning for word frequency
我使用 CountVectorizer 从 n-gram 分析中得到了这个输出(文本存储在 pandas 数据帧中):
Frequency
Words
playstation 5 106
hours app 32
app store 20
5 playstation 17
hour app 16
... ...
我想知道是否可以创建一个 'vocabulary' 我可以设置的同义词:
playstation 5 = 5 playstation
以便在最终频率列表中求和 106 + 17。
这不是关于词形还原而是关于顺序。我可以手动完成,但我想知道如何做。
非常感谢
如何使用 Levenshtein 距离来检查两个词的接近程度
from fuzzywuzzy import fuzz
fuzz.token_sort_ratio('playstation 5','5 playstation')
>> 100
fuzz.token_sort_ratio('playstation 5','4 playstation')
>> 92
我为此使用了 fuzzy wuzzy python 模块。
我使用 CountVectorizer 从 n-gram 分析中得到了这个输出(文本存储在 pandas 数据帧中):
Frequency
Words
playstation 5 106
hours app 32
app store 20
5 playstation 17
hour app 16
... ...
我想知道是否可以创建一个 'vocabulary' 我可以设置的同义词:
playstation 5 = 5 playstation
以便在最终频率列表中求和 106 + 17。 这不是关于词形还原而是关于顺序。我可以手动完成,但我想知道如何做。
非常感谢
如何使用 Levenshtein 距离来检查两个词的接近程度
from fuzzywuzzy import fuzz
fuzz.token_sort_ratio('playstation 5','5 playstation')
>> 100
fuzz.token_sort_ratio('playstation 5','4 playstation')
>> 92
我为此使用了 fuzzy wuzzy python 模块。