使用 k-means 将标签聚类到类别中

Clustering tags into categories with k-means

对此很陌生，但我想我正在寻找 K-means 来做这件事。

我有一堆 objects 带有标签（很多）。 None 他们的其他功能很重要。我知道相似的 objects 有相似的标签，它们可以归为 "categories"。我想知道这些类别是什么（使用 k-means？）。标签看起来像...

[你'味道'，你'健康'，你'食谱'，你'越南'，你'鸡蛋'，你'汤'，...]

[你'孩子'，你'品味'，你'健康'，你'学校'，你'食谱'，你'家庭'，...]

[你'饮食'，你'舌头'，你'健康'，你'美容'，你'头发'，...]

[你'锻炼'，你'雅典'，你'pizzino'，你'henya'，你'体重'，你'损失'，...]

使用 k-means 时是否有关于字符串列表的教程或指南？顺序无关紧要。我希望结果可以 return 返回一组标签？是这样吗？谢谢！！

K 均值基于方差最小化。

它试图最小化与均值的偏差平方和。

因此，它仅适用于连续数值变量，您可以在其中计算平均值。

人们曾尝试将其他数据嵌入为 0,1 向量，但通常结果很糟糕，而且您无法再很好地解释结果。

"mean" 不是适合您任务的模型。也许宁愿看看频繁的项目集（或者在你的情况下：频繁的标签集）