r 中词干提取和 wordnet 包的问题

Issue with word stemming and wordnet package in r

对于关键字提取,我需要删除同义词。但是如果我不使用词干提取,wordnet 将无法生成 "year's" "cats" 等词的同义词。 如果我使用词干提取,像 "administer" 这样的词会变成 "adminste",wordnet 无法识别这个词。 任何解决方案?

您可能想尝试 词形还原 而不是 词干提取,这将为您提供更有可能在 WordNet 中找到的单词形式.

取自nlp.stanford.edu

Stemming usually refers to a crude heuristic process that chops off 
the ends of words in the hope of achieving this goal correctly most
of the time, and often includes the removal of derivational affixes. 
Lemmatization usually refers to doing things properly with the use 
of a vocabulary and morphological analysis of words, normally aiming 
to remove inflectional endings only and to return the base or 
dictionary form of a word

这是因为 WordNet 使用规范词形式,即类似于字典的词形式,这正是词形还原过程试图执行的。

如果不提供 WordNet 可以使用的单词形式(例如不标记化),您将无法获得它的全部好处。

我建议构建一个简单的管道:

  1. 标记化
  2. 词形还原
  3. 关键字提取 (WordNet)