ssplit.eolonly 带中文

Question

我正在尝试使用 Stanford NN Dependency Parser 解析原始中文文本文件（每行一行）。

对于英文文本，我可以使用 'ssplit' 注释器和 'ssplit.eolonly' 选项来将文档拆分成句子，但是这个选项似乎对中文无效。解析适用于只有一行的输入文件，但是如果有多行，它们将被视为一个句子。

有没有简单的解决方案让 'ssplit.eolonly' 与中文一起工作？我运行的命令如下：

java edu.stanford.nlp.pipeline.StanfordCoreNLP \
-annotators segment,ssplit,pos,depparse \
-customAnnotatorClass.segment edu.stanford.nlp.pipeline.ChineseSegmenterAnnotator \
-segment.model edu/stanford/nlp/models/segmenter/chinese/ctb.gz \
-segment.sighanCorporaDict edu/stanford/nlp/models/segmenter/chinese \
-segment.serDictionary edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz \
-segment.sighanPostProcessing true \
-ssplit.eolonly \
-pos.model edu/stanford/nlp/models/pos-tagger/chinese-distsim/chinese-distsim.tagger \
-depparse.model edu/stanford/nlp/models/parser/nndep/CTB_CoNLL_params.txt.gz \
-depparse.language Chinese \
-file in -outputDirectory out

Answer 1

很遗憾，目前没有（2015 年 4 月）。当前分段器不支持保留行信息。在某个时候修复这将是一件好事....

ssplit.eolonly 带中文

ssplit.eolonly with Chinese text

stanford-nlp