如何自定义 stanfordNLP 分词器以忽略星号字符?
How to customize stanfordNLP tokenizer to ignore asterisk character?
我正在使用 stanfordCoreNLP 库的分词器作为我 project.For 以下字符串的一部分
abc def *ghi
它给出了以下标记abc,def,*ghi
但是,我希望像 abc,def,*ghi
那样包含星号。如何自定义 PBTTokenizer 来实现这一点?
请看我对这个问题的回答:
How to set delimiters for PTB tokenizer?
您可以将分词器设置为仅在白色 space 上分词:
(command-line) -tokenize.whitespace
(in Java code) props.setProperty("tokenize.whitespace", "true");
我正在使用 stanfordCoreNLP 库的分词器作为我 project.For 以下字符串的一部分
abc def *ghi
它给出了以下标记abc,def,*ghi
但是,我希望像 abc,def,*ghi
那样包含星号。如何自定义 PBTTokenizer 来实现这一点?
请看我对这个问题的回答:
How to set delimiters for PTB tokenizer?
您可以将分词器设置为仅在白色 space 上分词:
(command-line) -tokenize.whitespace
(in Java code) props.setProperty("tokenize.whitespace", "true");