DocBin to_bytes/to_disk 被杀死
DocBin to_bytes/to_disk gets killed
我正在处理相当大的语料库,当我试图保存我的 DocBin 对象时,它被杀死了。 to_disk 和 to_bytes 都在打印 "Killed".
我的 python 知识有限,因此我无法立即确定如何解决该问题。你能帮忙吗?
这是我的代码(非常简单和基本):
nlp = spacy.blank("en")
for text, annotations in train_data:
doc = nlp(text)
ents = []
for start, end, label in eval(annotations)['entities']:
span = doc.char_span(start, end, label=label)
if (span is None):
continue
ents.append(span)
doc.ents = ents
db.add(doc)
db.to_disk("../Spacy/train.spacy")```
您可能 运行 内存不足。相反,将您的注释保存在多个 DocBin
文件中。如果您有多个 .spacy
文件,您可以使用 spacy train
而不是单个 .spacy
文件向 --paths.train
提供目录。
我正在处理相当大的语料库,当我试图保存我的 DocBin 对象时,它被杀死了。 to_disk 和 to_bytes 都在打印 "Killed".
我的 python 知识有限,因此我无法立即确定如何解决该问题。你能帮忙吗?
这是我的代码(非常简单和基本):
nlp = spacy.blank("en")
for text, annotations in train_data:
doc = nlp(text)
ents = []
for start, end, label in eval(annotations)['entities']:
span = doc.char_span(start, end, label=label)
if (span is None):
continue
ents.append(span)
doc.ents = ents
db.add(doc)
db.to_disk("../Spacy/train.spacy")```
您可能 运行 内存不足。相反,将您的注释保存在多个 DocBin
文件中。如果您有多个 .spacy
文件,您可以使用 spacy train
而不是单个 .spacy
文件向 --paths.train
提供目录。