我如何遍历一堆文档并为每个文档执行 spacy 的 nlp,而不会出现内存错误?

How I can iterate through a bunch of documents and execute spacy's nlp for each of them, without getting a memory error?

我有 90 份文档,每份约 40 页(原始文本)。我想用 spacy 标记它们。

nlp = spacy.load('de')
tokenized_list = []

for document in doc_collection:
    temp_doc = nlp(document)
    tokenized_list.append(temp_doc)

它适用于少量文档,但如果我想标记所有文档,那么它会给出 "MemoryError"。

"...site-packages\numpy\core\shape_base.py", line 234, in vstack
    return _nx.concatenate([atleast_2d(_m) for _m in tup], 0)

MemoryError"

有人知道我该如何解决吗?

更新: 我可以在不更改文档的情况下一遍又一遍地执行它,有时它会卡在该文档中,有时会卡在该文档中 - 真的很奇怪...有人知道类似的问题吗?

我从 python 32 位版本更改为 64 位版本。现在它的工作!我尝试了很多,但除了这个版本更改之外没有其他任何方法。