在 Spacy 中手动设置句子边界

Manually set sentence boundaries in Spacy

假设我提前知道文档中的字符级别句子边界:

text = "The cat chased the mouse. The mouse ran away."
boundaries = [(0, 25), (26, 45)]
for start, end in boundaries:
    print(text[start:end])

有没有办法告诉 Spacy 使用这些边界?从我在官方 docs and 中收集到的信息来看,提供的挂钩似乎更适合支持适用于单词(令牌)级别的自定义无状态 规则

不能在任意字符处放置句子边界 - spaCy 不会让您在标记中间放置句子。

您可以迭代标记并使用 token.idx(标记的字符索引)通过查找与边界索引对齐的标记来应用边界。如果令牌边界与您的值不一致,您必须想出一个策略,无论是抛出异常还是以某种方式处理它。