使用 k-means 将标签聚类到类别中

Clustering tags into categories with k-means

对此很陌生,但我想我正在寻找 K-means 来做这件事。

我有一堆 objects 带有标签(很多)。 None 他们的其他功能很重要。我知道相似的 objects 有相似的标签,它们可以归为 "categories"。我想知道这些类别是什么(使用 k-means?)。标签看起来像...

[你'味道',你'健康',你'食谱',你'越南',你'鸡蛋',你'汤',...]

[你'孩子',你'品味',你'健康',你'学校',你'食谱',你'家庭',...]

[你'饮食',你'舌头',你'健康',你'美容',你'头发',...]

[你'锻炼',你'雅典',你'pizzino',你'henya',你'体重',你'损失',...]

使用 k-means 时是否有关于字符串列表的教程或指南?顺序无关紧要。我希望结果可以 return 返回一组标签?是这样吗?谢谢!!

K 均值基于方差最小化。

它试图最小化与均值的偏差平方和。

因此,它仅适用于连续数值变量,您可以在其中计算平均值。

人们曾尝试将其他数据嵌入为 0,1 向量,但通常结果很糟糕,而且您无法再很好地解释结果。

"mean" 不是适合您任务的模型。也许宁愿看看频繁的项目集(或者在你的情况下:频繁的标签集)