Gensim docvecs.most_similar returns ID 不存在
Gensim docvecs.most_similar returns Id's that dont exist
我正在尝试创建一种算法,该算法能够显示与特定文档相似的前 n 个文档。
为此,我使用了 gensim doc2vec。代码如下:
model = gensim.models.doc2vec.Doc2Vec(size=400, window=8, min_count=5, workers = 11,
dm=0,alpha = 0.025, min_alpha = 0.025, dbow_words = 1)
model.build_vocab(train_corpus)
for x in xrange(10):
model.train(train_corpus)
model.alpha -= 0.002
model.min_alpha = model.alpha
model.train(train_corpus)
model.save('model_EN_BigTrain')
sims = model.docvecs.most_similar([408], topn=10)
sims var 应该给我 10 个元组,第一个元素是文档的 id,第二个元素是分数。
问题是某些 id 与我的训练数据中的任何文档都不对应。
一段时间以来,我一直在尝试理解不在我的训练数据中的 ID,但我没有看到任何逻辑。
Ps:这是我用来创建 train_corpus
的代码
def readData(train_corpus, jData):
print("The response contains {0} properties".format(len(jData)))
print("\n")
for i in xrange(len(jData)):
print "> Reading offers from Aux array"
if i % 10 == 0:
print ">>", i, "offers processed..."
train_corpus.append(gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(jData[i][1]), tags=[jData[i][0]]))
print "> Finished processing offers"
作为辅助数组的每个位置,一个数组在中,位置 0 是一个 int(我想成为 id),位置 1 是一个描述
提前致谢。
您是否使用普通整数 ID 作为您的 tags
,但没有完全使用从 0 到 MAX_DOC_ID
的所有整数?
如果是这样,那就可以解释该范围内标签的出现。当您使用纯整数时,gensim Doc2Vec 避免创建字典映射提供的标签到其内部向量数组中的索引位置——并且只使用整数本身。
因此必须分配内部向量数组以包含 MAX_DOC_ID + 1
行。与所有位置一样,与未使用的 ID 对应的任何行仍被初始化为随机向量,但不会接受来自实际文本示例的任何训练以将它们推入有意义的相对位置。因此,这些随机初始化但未经训练的向量可能会出现在以后的 most_similar()
结果中。
为避免这种情况,要么仅使用从 0 到您需要的最后一个 ID 的连续整数。或者,如果您能负担得起字符串到索引映射的内存成本,请使用字符串标签而不是普通整数。或者,保留有效 ID 的额外记录并从结果中手动过滤不需要的 ID。
另外:通过在 Doc2Vec 模型初始化中不指定 iter=1
,默认值 iter=5
将生效,这意味着每次调用 train()
都会对您的数据进行 5 次迭代。奇怪的是,您的 xrange(10)
for 循环包括两次单独调用 train()
每次迭代(第一个只是使用任何 alpha/min_alpha 已经存在的)。所以你实际上对数据进行了 10 * 2 * 5 = 100 次传递,学习率计划很奇怪。
我建议,如果您想要 10 次传递仅设置 iter=10
,请保持默认 alpha
/min_alpha
不变,然后仅调用一次 train()
。该模型将进行 10 次传递,从其起始值到结束值平滑地管理 alpha。
我也遇到了这个问题,我正在用以下内容初始化我的 doc2vec:
for idx,doc in data.iterrows():
alldocs.append(TruthDocument(doc['clean_text'], [idx], doc['label']))
我向它传递了一个包含一些怪异索引的数据框。我所要做的就是。
df.reset_index(inplace=True)
我正在尝试创建一种算法,该算法能够显示与特定文档相似的前 n 个文档。 为此,我使用了 gensim doc2vec。代码如下:
model = gensim.models.doc2vec.Doc2Vec(size=400, window=8, min_count=5, workers = 11,
dm=0,alpha = 0.025, min_alpha = 0.025, dbow_words = 1)
model.build_vocab(train_corpus)
for x in xrange(10):
model.train(train_corpus)
model.alpha -= 0.002
model.min_alpha = model.alpha
model.train(train_corpus)
model.save('model_EN_BigTrain')
sims = model.docvecs.most_similar([408], topn=10)
sims var 应该给我 10 个元组,第一个元素是文档的 id,第二个元素是分数。 问题是某些 id 与我的训练数据中的任何文档都不对应。
一段时间以来,我一直在尝试理解不在我的训练数据中的 ID,但我没有看到任何逻辑。
Ps:这是我用来创建 train_corpus
的代码def readData(train_corpus, jData):
print("The response contains {0} properties".format(len(jData)))
print("\n")
for i in xrange(len(jData)):
print "> Reading offers from Aux array"
if i % 10 == 0:
print ">>", i, "offers processed..."
train_corpus.append(gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(jData[i][1]), tags=[jData[i][0]]))
print "> Finished processing offers"
作为辅助数组的每个位置,一个数组在中,位置 0 是一个 int(我想成为 id),位置 1 是一个描述
提前致谢。
您是否使用普通整数 ID 作为您的 tags
,但没有完全使用从 0 到 MAX_DOC_ID
的所有整数?
如果是这样,那就可以解释该范围内标签的出现。当您使用纯整数时,gensim Doc2Vec 避免创建字典映射提供的标签到其内部向量数组中的索引位置——并且只使用整数本身。
因此必须分配内部向量数组以包含 MAX_DOC_ID + 1
行。与所有位置一样,与未使用的 ID 对应的任何行仍被初始化为随机向量,但不会接受来自实际文本示例的任何训练以将它们推入有意义的相对位置。因此,这些随机初始化但未经训练的向量可能会出现在以后的 most_similar()
结果中。
为避免这种情况,要么仅使用从 0 到您需要的最后一个 ID 的连续整数。或者,如果您能负担得起字符串到索引映射的内存成本,请使用字符串标签而不是普通整数。或者,保留有效 ID 的额外记录并从结果中手动过滤不需要的 ID。
另外:通过在 Doc2Vec 模型初始化中不指定 iter=1
,默认值 iter=5
将生效,这意味着每次调用 train()
都会对您的数据进行 5 次迭代。奇怪的是,您的 xrange(10)
for 循环包括两次单独调用 train()
每次迭代(第一个只是使用任何 alpha/min_alpha 已经存在的)。所以你实际上对数据进行了 10 * 2 * 5 = 100 次传递,学习率计划很奇怪。
我建议,如果您想要 10 次传递仅设置 iter=10
,请保持默认 alpha
/min_alpha
不变,然后仅调用一次 train()
。该模型将进行 10 次传递,从其起始值到结束值平滑地管理 alpha。
我也遇到了这个问题,我正在用以下内容初始化我的 doc2vec:
for idx,doc in data.iterrows():
alldocs.append(TruthDocument(doc['clean_text'], [idx], doc['label']))
我向它传递了一个包含一些怪异索引的数据框。我所要做的就是。
df.reset_index(inplace=True)