如何将多列文本数据聚类?

How can I cluster text data with multiple columns?

我想对具有 'title'、'genre'、'review' 和 'synopsis' 列的书籍文本数据进行 k 表示聚类。

我想使用 'title' 作为聚类的指标或主键,但我不确定如何为此使用多个列。

我知道我首先必须对数据进行矢量化,但是矢量化处理的是序列数据而不是数据帧值;所以在这里,我再次不知道如何使用我想要的所有列。

您可以分别向量化每一列并连接结果。

只需确保进行稀疏连接即可。

但是,使用 k-means 对文本进行聚类根本无法正常工作。 K-means 对异常值和噪声非常敏感,测试中充满了噪声。 k 均值的基本假设(k 信号和 i.i.d。高斯误差)不适用于文本。祝你好运...