StanfordNLP 西班牙语分词器

StanfordNLP Spanish Tokenizer

我想用 StanfordNLP 对西班牙语文本进行标记化，我的问题是该模型会拆分与模式“\d*s”匹配的任何单词（由数字组成并以 "s" 结尾的单词）在两个令牌中。如果单词以另一个字母结尾，例如 "e"，则分词器 return 仅一个标记。

例如，给定句子： "Vendo iPhone 5s es libre de fabrica esta nuevo sin usar."

文本 "iPhone 5s" 三个标记的分词器 return："iPhone"、“5”和 "s"。

有人知道我该如何避免这种行为？

我想您正在使用 SpanishTokenizer 而不是 PTTBokenizer。

SpanishTokenizer is heavily based on the FrenchTokenizer, which comes also from the PTBTokenizer（英语）。

我已经运行你的句子中的所有三个，似乎 PTBTokenizer 给你你需要的结果，但不是其他的。

因为它们都是确定性的分词器，我认为你无法避免这个问题，因为在我看来，问题不在启发式部分，应该运行在确定性之后。

一种可能的解决方法是使用 WhitespaceTokenizer，只要您不介意使用标点符号或其他一些语法规则即可。