Spark 权威指南：第 25 章 - 预处理和特征工程

Spark The Definitive Guide: Chapter 25 - Preprocessing and Feature Engineering

我不明白何时同时使用 'fit' 和 'transform' 以及何时仅使用 'transform'。

以下转换器同时使用 fit 和 transform：

以下转换器仅使用转换：

我不明白什么时候同时使用拟合和变换，什么时候只使用变换。

请解释。谢谢。

最终，所有这些组件都用于 'transform' 数据、索引/缩放/分桶等。其中一些不需要了解数据的任何信息即可完成工作。例如，StopWordsRemover 只应用要删除的停用词列表，而不考虑数据。

某些组件确实需要了解它们正在操作的数据才能正确转换数据。例如，MinMaxScaler 需要知道数据的 min/max 才能执行缩放。

所以，所有这些都公开了一个 transform() 方法，但只有一些需要首先对数据进行 fit()。