Python:基于word2vec聚类相似词
Python: clustering similar words based on word2vec
这可能是我要问的天真的问题。我有一个标记化的语料库,我在上面训练了 Gensim 的 Word2vec 模型。代码如下
site = Article("http://www.datasciencecentral.com/profiles/blogs/blockchain-and-artificial-intelligence-1")
site.download()
site.parse()
def clean(doc):
stop_free = " ".join([i for i in word_tokenize(doc.lower()) if i not in stop])
punc_free = ''.join(ch for ch in stop_free if ch not in exclude)
normalized = " ".join(lemma.lemmatize(word) for word in punc_free.split())
snowed = " ".join(snowball.stem(word) for word in normalized.split())
return snowed
b = clean(site.text)
model = gensim.models.Word2Vec([b],min_count=1,size=32)
print(model) ### Prints: Word2Vec(vocab=643, size=32, alpha=0.025) ####
为了对相似词进行聚类,我使用 PCA 来可视化相似词的聚类。但问题是它只形成了图中所示的大集群。
主成分分析和散点图代码:
vocab = list(model.wv.vocab)
X = model[vocab]
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
df = pd.concat([pd.DataFrame(X_pca),
pd.Series(vocab)],
axis=1)
df.columns = ['x','y','word']
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
ax.scatter(df['x'],df['y'])
plt.show()
所以,我在这里有三个问题:
1) 一篇文章是否足以明确划分集群?
2) 如果我有一个用庞大的语料库训练的模型,我想预测新文章中的相似词并以聚类的形式将它们(即我预测的文章中的词)可视化,是否有有办法吗?
非常感谢您的建议。谢谢。
- 不,不是真的。作为参考,在维基百科(英文)上训练的常见 word2vec 模型包含大约 30 亿个单词。
- 您可以使用 KNN(或类似的东西)。 Gensim 有
most_similar
函数来获取最接近的单词。使用降维(如 PCA 或 tsne)你可以得到一个很好的集群。 (不知道gensim有没有tsne模块,sklearn有,可以用)
顺便说一句,你指的是一些图片,但它不可用。
这可能是我要问的天真的问题。我有一个标记化的语料库,我在上面训练了 Gensim 的 Word2vec 模型。代码如下
site = Article("http://www.datasciencecentral.com/profiles/blogs/blockchain-and-artificial-intelligence-1")
site.download()
site.parse()
def clean(doc):
stop_free = " ".join([i for i in word_tokenize(doc.lower()) if i not in stop])
punc_free = ''.join(ch for ch in stop_free if ch not in exclude)
normalized = " ".join(lemma.lemmatize(word) for word in punc_free.split())
snowed = " ".join(snowball.stem(word) for word in normalized.split())
return snowed
b = clean(site.text)
model = gensim.models.Word2Vec([b],min_count=1,size=32)
print(model) ### Prints: Word2Vec(vocab=643, size=32, alpha=0.025) ####
为了对相似词进行聚类,我使用 PCA 来可视化相似词的聚类。但问题是它只形成了图中所示的大集群。
主成分分析和散点图代码:
vocab = list(model.wv.vocab)
X = model[vocab]
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
df = pd.concat([pd.DataFrame(X_pca),
pd.Series(vocab)],
axis=1)
df.columns = ['x','y','word']
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
ax.scatter(df['x'],df['y'])
plt.show()
所以,我在这里有三个问题:
1) 一篇文章是否足以明确划分集群?
2) 如果我有一个用庞大的语料库训练的模型,我想预测新文章中的相似词并以聚类的形式将它们(即我预测的文章中的词)可视化,是否有有办法吗?
非常感谢您的建议。谢谢。
- 不,不是真的。作为参考,在维基百科(英文)上训练的常见 word2vec 模型包含大约 30 亿个单词。
- 您可以使用 KNN(或类似的东西)。 Gensim 有
most_similar
函数来获取最接近的单词。使用降维(如 PCA 或 tsne)你可以得到一个很好的集群。 (不知道gensim有没有tsne模块,sklearn有,可以用)
顺便说一句,你指的是一些图片,但它不可用。