如何在情感分析中省略标记化和 ssplit 注释器

How to omit tokenize and ssplit annotators for Sentiment Analysis

对于文本的情感分析任务,我使用以下注释器创建管道:

annotators = tokenize, ssplit, parse, sentiment

在阅读了关于注释器的文档后,我意识到 tokenize 和 ssplit 将整个文本分解成单独的句子,以便进一步分析。 我目前正在研究的问题是推文的情感分析。由于推文大多数时候不会超过一行,因此在解析之前使用标记化和 ssplit 注释器似乎有点过分了。

我试图排除前两个,但它不允许我发出消息异常线程 "main" java.lang.IllegalArgumentException:注释器 "parse" 需要注释器 "tokenize"

有什么方法可以避免使用 tokenize 和 ssplit 注释器来提高效率吗?

是的,如果您的文本已经被标记化并且您有一个每行一个句子的文件,您可以告诉标记器仅在空格处拆分标记,而句子拆分器仅在换行符处拆分句子。

分词器的选项是 -tokenize.whitespace true,分句器的选项是 -ssplit.eolonly true

您可以找到有关 tokenizer and the sentence splitter in the CoreNLP documentation 选项的更多信息。