德语和西班牙语文本处理工具

Text Processing Tools for German and Spanish Languages

我正在尝试处理德语和西班牙语的文本。处理英语文本非常简单,因为有无数的 NLP 软件包支持这种语言。但是对于其他语言来说并不容易。我找到了一些德语文本包,但我不知道哪个更准确。此外,考虑到西班牙语中有一些特殊字符,很难找到用于西班牙语文本的 NLP 包。我需要对文本执行的一些步骤是:句子拆分、标记化、词性标记和词干提取。换句话说,我正在 Java.

中寻找适用于这两种语言中的一种或两种语言的东西

如有任何关于此主题的信息,我们将不胜感激。

如果您愿意跳过 Java 要求,Spacy is a very straightforward, cutting edge Python library which includes pretrained Spanish and German models

我可以推荐你Freeling,查看它的Freeling_online_demo, it includes Sentence Splitting, Tokenizing, Pos tagging and other functionalities for several language. I dont know how good it's for german but for analyze spanish is the best tool I know. I've just used Freeling via python+command line, but there are interfaces for java too, for example Freeling_jaVa_API

祝你好运!