使用 spaCy 查找不存在的单词?

Finding non-existing words with spaCy?

我是 spaCy 的新手。我有一个(德语)文本,我想在其中找到字典中没有的所有单词(使用 de_core_news_lg 管道)。阅读 spaCy 的文档,我发现唯一看起来有希望的是 Token.has_vector()。当我检查我通过 运行 nlp(TEXT) 获得的 Doc 对象中的所有标记时,我发现确实 has_vector() returns False 的标记似乎要么是拼写错误,要么是词典中不太可能出现的生僻词。

所以我的假设是从 Token.has_vector() 返回 False 相当于没有在字典中找到相应的单词。我对么?有没有更好的方法来查找字典中没有的单词?

spaCy 不包含检查单词是否在字典中的功能。

如果您已加载带有向量的管道,则可以使用 has_vector 检查给定标记是否存在词向量。这有点类似于检查一个词是否在字典中,但它取决于向量——对于大多数语言,向量只包括在训练语料库中至少出现一定次数的任何词,所以常见的拼写错误或其他会出现奇怪的东西,而一些单词可能会随机丢失。

如果您想以某种方式检测“真实”单词,最好使用您自己的列表。