ssplit.eolonly 带中文

ssplit.eolonly with Chinese text

我正在尝试使用 Stanford NN Dependency Parser 解析原始中文文本文件(每行一行)。

对于英文文本,我可以使用 'ssplit' 注释器和 'ssplit.eolonly' 选项来将文档拆分成句子,但是这个选项似乎对中文无效。解析适用于只有一行的输入文件,但是如果有多行,它们将被视为一个句子。

有没有简单的解决方案让 'ssplit.eolonly' 与中文一起工作?我运行的命令如下:

java edu.stanford.nlp.pipeline.StanfordCoreNLP \
-annotators segment,ssplit,pos,depparse \
-customAnnotatorClass.segment edu.stanford.nlp.pipeline.ChineseSegmenterAnnotator \
-segment.model edu/stanford/nlp/models/segmenter/chinese/ctb.gz \
-segment.sighanCorporaDict edu/stanford/nlp/models/segmenter/chinese \
-segment.serDictionary edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz \
-segment.sighanPostProcessing true \
-ssplit.eolonly \
-pos.model edu/stanford/nlp/models/pos-tagger/chinese-distsim/chinese-distsim.tagger \
-depparse.model edu/stanford/nlp/models/parser/nndep/CTB_CoNLL_params.txt.gz \
-depparse.language Chinese \
-file in -outputDirectory out

很遗憾,目前没有(2015 年 4 月)。当前分段器不支持保留行信息。在某个时候修复这将是一件好事....