VectorSlicer 在 Spark 2.0 中是如何工作的?

How does VectorSlicer work in Spark 2.0?

在Spark官方文档中,

VectorSlicer is a transformer that takes a feature vector and outputs a new feature vector with a sub-array of the original features. It is useful for extracting features from a vector column.

我正在尝试执行数据聚类,我需要能够更好地促进聚类的重要功能。我可以为此使用 VectorSlicer 吗?

Does this select the important features from the set of features?

没有。它从字面上将向量切片为 select 仅指定的索引。

and need the important features which will contribute to the clusters better.

  • 如果您有分类数据,请考虑使用 ChiSqSelector

  • 否则你可以像PCA那样使用降维。它与功能 selection 不同,但应该提供类似的好处(仅保留最重要的信号,丢弃其余信号)。