在 spaCy 中训练句子分词器

training sentence tokenizer in spaCy

我正在尝试使用 spacy 标记句子。

文本包含大量缩写词和以句号结尾的注释。此外,文本是通过 OCR 获取的,有时句子中间会出现换行符。 Spacy 在这些情况下似乎表现不佳。

我已经提取了一些我希望如何拆分这些句子的示例。有什么方法可以训练 spacy 的句子分词器吗?

Spacy 有点不寻常,因为默认的句子分割来自依存分析器,所以你不能直接训练句子边界检测器,但你可以将自己的自定义组件添加到管道或预先插入一些解析器将遵守的边界。请参阅带有示例的文档:Spacy Sentence Segmentation

对于您所描述的情况,如果能够指定特定位置不是句子边界,这可能会有用,但据我所知,目前还不可能。