从 textstem 中的词形还原 dictionary/updating 词条词典中删除单词

Removing words from lemmatisation dictionary/updating lemma dictionary in textstem

我正在使用 textstem 包对某些回复中的单词进行词形还原。但是有一个词(spotting)我不想包括在内,缩减为“spot”。我希望它保持斑点。我怎么能做到这一点?我需要制作自定义词典吗?目前正在做:

lemmatize_strings(df, dictionary = lexicon::hash_lemmas)

您可以在删除标记的地方创建自己的字典spotting

# hash_lemmas is a datatable, so you can use column name token instead hash_lemmas$token
my_lex <- lexicon::hash_lemmas[!token == "spotting", ]

df_lemmatized <- lemmatize_strings(df, dictionary = my_lex)

或者如果您想在不创建自己的词典的情况下这样做:

df_lemmatized <- lemmatize_strings(df, dictionary = lexicon::hash_lemmas[!token == "spotting", ])