将 Wordnet 的输出缩减为一种含义

Reducing the output of Wordnet to one meaning

首先,让我向您介绍一下我的问题:对于一个项目,我必须将 8000 个问题分类,并将它们分为 7 个类别(宪法、体育、地理、历史、科学、教育和技术)。因为问题很短,SVM 没有多大意义,所以我只是为每个类别创建了一个单词列表。为了提高准确性,我必须扩展这些列表,以便可以将未标记的字符串放入类别中。在互联网上,我听说 WordNet 可以获取单词的同义词(这对我来说很有意义,因为我需要尽可能多的单词同义词)。 但问题来了:WordNet 显示在

from nltk.corpus import wordnet as wn
for synset in wn.synsets(word):
    for lemma in synset.lemmas():
        print(lemma.name())

所有相关词。一个例子是单词 capital:我只是指一个国家的首都意义上的首都,但是 WordNet returns 单词 capital,working,大写字母、大写字母、大写字母、majuscule 和首都华盛顿。 显然,我不需要地理词袋中的大写这个词。 所以我问你是否有可能将 WordNet 简化为只有一种含义,或者是否有任何我可以使用的替代方法。

此致,詹姆斯

您需要找到特定词条(规范词典条目;具有单一定义的词)的同义词。我会简单地包括我在评论中发布的,祝你好运。