电子邮件集群

EMAILS CLUSTERING

我有电子邮件数据(first_name、last_name、电子邮件、用户名、email_domain),我想根据其文本对电子邮件进行聚类,以便将相似的电子邮件聚类一起,它可以将相似的名称聚集在一起。我想做的是对 email_domain 应用文本预处理并训练 KMeans 算法。我走对了吗? 谢谢。

这是一种方法,但它是否是最好的方法取决于问题。

与使用何种聚类算法相比,文本预处理的具体方式更为重要。从文本到矢量 space 的映射决定了它 意味着 两封相似的电子邮件。聚类算法只是将最相似的算法分组。 (顺便说一句,我认为电子邮件 text 比域更有用。) 有很多选项可以将任意文本映射到单个向量。几篇论文可以帮助您入门:Latent Dirichlet Allocation (the θ vector will be the one you want), Paragraph Vectors.

如果您知道需要多少个聚类,K-Means 是一个合理的选择。在决定您希望聚类算法具有哪些属性时,scikit-learn page on clustering 是一个有用的资源。它显示了具有各种形状的数据集,以及通过各种算法从每个形状中提取的聚类。