StanfordNLP 西班牙语分词器

StanfordNLP Spanish Tokenizer

我想用 StanfordNLP 对西班牙语文本进行标记化,我的问题是该模型会拆分与模式“\d*s”匹配的任何单词(由数字组成并以 "s" 结尾的单词)在两个令牌中。如果单词以另一个字母结尾,例如 "e",则分词器 return 仅一个标记。

例如,给定句子: "Vendo iPhone 5s es libre de fabrica esta nuevo sin usar."

文本 "iPhone 5s" 三个标记的分词器 return:"iPhone"、“5”和 "s"。

有人知道我该如何避免这种行为?

我想您正在使用 SpanishTokenizer 而不是 PTTBokenizer。

SpanishTokenizer is heavily based on the FrenchTokenizer, which comes also from the PTBTokenizer(英语)。

我已经 运行 你的句子中的所有三个,似乎 PTBTokenizer 给你你需要的结果,但不是其他的。

因为它们都是确定性的分词器,我认为你无法避免这个问题,因为在我看来,问题不在启发式部分,应该 运行 在确定性之后。

一种可能的解决方法是使用 WhitespaceTokenizer,只要您不介意使用标点符号或其他一些语法规则即可。