电子邮件集群

EMAILS CLUSTERING

我有电子邮件数据（first_name、last_name、电子邮件、用户名、email_domain），我想根据其文本对电子邮件进行聚类，以便将相似的电子邮件聚类一起，它可以将相似的名称聚集在一起。我想做的是对 email_domain 应用文本预处理并训练 KMeans 算法。我走对了吗？谢谢。

这是一种方法，但它是否是最好的方法取决于问题。

与使用何种聚类算法相比，文本预处理的具体方式更为重要。从文本到矢量 space 的映射决定了它 意味着 两封相似的电子邮件。聚类算法只是将最相似的算法分组。（顺便说一句，我认为电子邮件 text 比域更有用。）有很多选项可以将任意文本映射到单个向量。几篇论文可以帮助您入门：Latent Dirichlet Allocation (the θ vector will be the one you want), Paragraph Vectors.

如果您知道需要多少个聚类，K-Means 是一个合理的选择。在决定您希望聚类算法具有哪些属性时，scikit-learn page on clustering 是一个有用的资源。它显示了具有各种形状的数据集，以及通过各种算法从每个形状中提取的聚类。

电子邮件集群

EMAILS CLUSTERING

python

cluster-analysis

machine-learning