使用word2vec计算用户之间的相似度

Using word2vec to calculate similarity between users

我最近才知道这个叫做 word2vec 的工具。对于我当前的工作,我需要找出与给定用户相似的用户。单个用户具有与其关联的实体,如年龄、资格、insitute/organisaions、已知语言和某些标签列表。如果我们将这些 entities/columns 中的每一个一起视为用户的随机单词块,我们是否可以相应地计算该用户的向量值并使用这些值来推断用户之间的相似性?维基训练向量能帮助我们获得有意义的结果吗?还有其他方法吗?

你需要的是一个简单的无监督(或半监督)聚类算法。带有预训练向量的 word2vec 可能不是很有帮助,因为机构等不太可能在其中。

此外,"aspects" 用户的数量似乎很少,因此您可以简单地在向量表示上使用聚类算法,其中向量的每个维度 space 都是其中之一方面(年龄、资格、组织等)。

如果您希望用户的相似性反映这些方面的相似性(而不是完全相等),像 word2vec 这样的连续 space 模型会很有帮助。

例如,如果您希望将资格 "Python expert" 衡量为接近 "Scripting expert" 的东西,那么请使用 word2vec。但是,如果您要在有限的预定义方面中寻找精确匹配,请使用简单的聚类算法。

P.S。有关此主题的更详细的问答应在 Cross Validated.