如何自定义 stanfordNLP 分词器以忽略星号字符?

How to customize stanfordNLP tokenizer to ignore asterisk character?

我正在使用 stanfordCoreNLP 库的分词器作为我 project.For 以下字符串的一部分 abc def *ghi 它给出了以下标记abc,def,*ghi 但是,我希望像 abc,def,*ghi 那样包含星号。如何自定义 PBTTokenizer 来实现这一点?

请看我对这个问题的回答:

How to set delimiters for PTB tokenizer?

您可以将分词器设置为仅在白色 space 上分词:

(command-line) -tokenize.whitespace
(in Java code) props.setProperty("tokenize.whitespace", "true");