DocBin to_bytes/to_disk 被杀死

Question

我正在处理相当大的语料库，当我试图保存我的 DocBin 对象时，它被杀死了。 to_disk 和 to_bytes 都在打印 "Killed".

我的 python 知识有限，因此我无法立即确定如何解决该问题。你能帮忙吗？

这是我的代码（非常简单和基本）：

    nlp = spacy.blank("en")
    for text, annotations in train_data:
        doc = nlp(text)
        ents = []
        for start, end, label in eval(annotations)['entities']:
            span = doc.char_span(start, end, label=label)
            if (span is None):
                continue
            ents.append(span)   
        doc.ents = ents
        db.add(doc)

    db.to_disk("../Spacy/train.spacy")```

Answer 1

您可能运行内存不足。相反，将您的注释保存在多个 DocBin 文件中。如果您有多个 .spacy 文件，您可以使用 spacy train 而不是单个 .spacy 文件向 --paths.train 提供目录。

DocBin to_bytes/to_disk 被杀死

DocBin to_bytes/to_disk gets killed

python

python-3.x

spacy

spacy-3