Stanford NLP core 4.0.0 不再拆分西班牙语中的动词和代词

Stanford NLP core 4.0.0 no longer splitting verbs and pronouns in Spanish

Stanford NLP core 3.9.2 非常有用，用于拆分滚动在一起的西班牙语动词和代词

这是 4.0.0 输出：

之前的版本有更多的.tagger 文件。这些未包含在 4.0.0 发行版中。

是这个原因吗。他们会被加回去吗？

Stanford CoreNLP 4.0.0 仍有一些文档需要更新。

一个主要的变化是增加了一个新的多词标记注释器，使标记符合UD标准。所以新的默认西班牙语管道应该运行 tokenize,ssplit,mwt,pos,depparse,ner。目前可能无法从服务器演示中运行这样的管道，因为需要进行一些修改。我可以尝试向您发送此类修改的内容。我们将尝试在初夏发布一个新版本来处理我们遗漏的此类问题。

不幸的是，它不会拆分您的示例中的单词，但我认为在很多情况下它会做正确的事情。西班牙语 mwt 模型仅基于大型术语词典，并经过调整以优化西班牙语训练数据的性能。

Stanford NLP core 4.0.0 不再拆分西班牙语中的动词和代词

Stanford NLP core 4.0.0 no longer splitting verbs and pronouns in Spanish

windows

stanford-nlp