如何在无监督学习中使用特征选择和降维?

How to use feature selection and dimensionality reduction in Unsupervised learning?

我一直致力于对来自两位作者的电子邮件进行分类。我已经成功地使用监督学习以及 TFIDF 文本矢量化、PCA 和 SelectPercentile 特征选择来执行相同的操作。我使用 scikit-learn 包来实现相同的目的。

现在我想尝试使用无监督学习 KMeans 算法将电子邮件分为两组。我创建了数据集,其中每个数据点都作为 python 列表中的一行。由于我是无监督的新手,所以我想问一下我是否可以应用与监督中使用的相同的降维工具(TFIDF、PCA 和 SelectPercentile)。如果不是那么他们的对手是什么?我正在使用 scikit-learn 对其进行编码。

我在 Whosebug 上四处寻找,但没有得到满意的答案。 我真的卡在这一点上了。

请帮忙!

以下是可用于无监督学习的降维技术:-

  1. PCA:主成分分析
    • 精确主成分分析
    • 增量PCA
    • 近似主成分分析
    • 内核主成分分析
    • SparsePCA 和 MiniBatchSparsePCA
  2. 随机投影
    • 高斯随机投影
    • 稀疏随机投影
  3. 特征集聚
    • 标准缩放器

上面提到了一些在无监督学习的情况下可以对海量数据进行降维的方法。 您可以阅读更多详情 here.