Snowball 的意大利词干分析器替代品

Italian Stemmer alternative to Snowball

我正在尝试在 R 中分析意大利语文本。 正如您在文本分析中所做的那样,我已经删除了所有标点符号、特殊字符和意大利语停用词。 但是我在 Stemming 上遇到了一个问题:只有一种意大利词干提取器(Snowball),但它不是很精确。

为了进行词干提取,我使用了 tm 库,尤其是 stemDocument 函数,我还尝试使用 SnowballC 库,两者都得到了相同的结果。

  stemDocument(content(myCorpus[[1]]),language = "italian")

问题是生成的词干提取不是很精确。还有其他更精确的意大利语词干分析器吗? 或者有没有办法通过添加新术语来实现 TM 库中已经存在的词干提取?

您可以检查的另一种选择是这个人的包,他有许多不同语言的包。这是 Italian 的 link。

它是否对你的案子有帮助是另一个争论,但它也可以通过 corpus package. A sample example (for English use case, tweak it for Italian) is also given in their documentation if you move down to the Dictionary Stemmer section


或者,与上述方式类似,您还可以考虑 Python 库(例如 NLTK or Spacy 中的词干提取器或词尾还原器(如果您还没有考虑词尾还原器,它们值得考虑),并检查您是否获得更好的结果.毕竟,它们只是包含根词与子词映射的文件。下载它们,根据您的要求微调文件,并通过自定义函数传递它来根据您的方便使用映射。