Gensim Doc2vec finalize_vocab 内存错误

Question

我正在尝试使用 gensim 训练 Doc2Vec 模型，该模型具有 114M 唯一 documents/labels 和大约 3M 唯一单词的词汇量。我在 Azure 上有 115GB Ram linux 机器。当我运行 build_vocab 时，迭代器解析所有文件，然后抛出如下所列的内存错误。

    Traceback (most recent call last):
  File "doc_2_vec.py", line 63, in <module>
    model.build_vocab(sentences.to_array())
  File "/home/meghana/.local/lib/python2.7/site-packages/gensim/models/word2vec.py", line 579, in build_vocab
    self.finalize_vocab(update=update)  # build tables & arrays
  File "/home/meghana/.local/lib/python2.7/site-packages/gensim/models/word2vec.py", line 752, in finalize_vocab
    self.reset_weights()
  File "/home/meghana/.local/lib/python2.7/site-packages/gensim/models/doc2vec.py", line 662, in reset_weights
    self.docvecs.reset_weights(self)
  File "/home/meghana/.local/lib/python2.7/site-packages/gensim/models/doc2vec.py", line 390, in reset_weights
    self.doctag_syn0 = empty((length, model.vector_size), dtype=REAL)
MemoryError

我的代码-

import parquet
import json
import collections
import multiprocessing


# gensim modules
from gensim import utils
from gensim.models.doc2vec import LabeledSentence
from gensim.models import Doc2Vec

class LabeledLineSentence(object):
    def __init__(self, sources):
        self.sources = sources   
        flipped = {}

    def __iter__(self):
        for src in self.sources:
            with open(src) as fo:
               for row in parquet.DictReader(fo, columns=['Id','tokens']):
                    yield LabeledSentence(utils.to_unicode(row['tokens']).split('\x01'), [row['Id']])

## list of files to be open ##
sources =  glob.glob("/data/meghana_home/data/*")
sentences = LabeledLineSentence(sources)

#pre = Doc2Vec(min_count=0)
#pre.scan_vocab(sentences)
"""
for num in range(0, 20):
    print('min_count: {}, size of vocab: '.format(num), pre.scale_vocab(min_count=num, dry_run=True)['memory']['vocab']/700)
    print("done")
"""

NUM_WORKERS = multiprocessing.cpu_count()
NUM_VECTORS = 300
model = Doc2Vec(alpha=0.025, min_alpha=0.0001,min_count=15, window=3, size=NUM_VECTORS, sample=1e-4, negative=10, workers=NUM_WORKERS) 
model.build_vocab(sentences)
print("built vocab.......")
model.train(sentences,total_examples=model.corpus_count, epochs=10)

根据顶部的内存使用情况是-

谁能告诉我预期的内存是多少？什么是更好的选择 - 添加交换 space 并减慢进程或添加更多内存，以便集群的成本最终可能是相等的。 gensim 在内存中存储哪些向量？我缺少的任何标志以提高内存使用效率。

Answer 1

1.14 亿个文档标签至少需要 114,000,000 doctags * 300 dimensions * 4 bytes/float = 136GB 才能在训练期间存储原始文档标签向量。

（如果 doctag 键 row['Id'] 是字符串，那么记住 string-to-int-index 映射字典会有额外的开销。如果 doctag 键是从 0 到 1.14 亿的原始整数，这将避免填充该字典。如果 doctag 键是原始 int，但包含任何大于 1.14 亿的 int，模型将尝试分配一个足够大的数组以包含最大 int 的行——即使许多其他较低的 int 是未使用。)

原始词向量和模型输出层 (model.syn1) 还需要大约 8GB，而词汇词典还需要几 GB。

所以理想情况下，您需要更多的可寻址内存，或者更小的文档标签集。

你提到了一个'cluster'，但是gensimDoc2Vec不支持多机分发

使用交换 space 对于这些算法来说通常不是一个好主意，因为它可能涉及相当多的随机访问，因此在交换期间变得非常慢。但是对于 Doc2Vec 的情况，您可以使用 Doc2Vec.__init__() 可选参数 docvecs_mapfile 将其 doctags 数组设置为由内存映射文件提供服务。在每个文档都有一个标签的情况下，并且这些标签在每次重复扫描训练文本时以相同的升序出现，性能可能是可以接受的。

分开：

您对训练迭代和 alpha 学习率的管理存在问题。您实现了 2 次数据传递，alpha 值为 0.025 和 0.023，即使每个 train() 调用都尝试默认的 5 次传递，但随后仅从不可重启的 sentences.to_array()对象。

您的目标应该是通过模型管理 alpha 从其初始高值到默认的最终极小 min_alpha 值，并且代码行更少。您只需调用 train() 一次，除非您完全确定需要在多次调用之间执行额外的步骤。（这里显示的都不需要。）

通过将 to_array() 更改为 __iter__()，然后单独传递 sentences（而不是 sentences.to_array()) 到模型。

然后用这个可多次迭代的对象调用 train() 一次，让它进行指定次数的迭代，从高到低平滑更新 alpha。（从 Word2Vec 继承的默认值是 5 次迭代，但 10 到 20 次在已发表的 Doc2Vec 作品中更常用。默认值 min_alpha 0.0001 几乎不应该更改。）

Gensim Doc2vec finalize_vocab 内存错误

Gensim Doc2vec finalize_vocab Memory Error

python

nlp

gensim

doc2vec