Spark 权威指南:第 25 章 - 预处理和特征工程

Spark The Definitive Guide: Chapter 25 - Preprocessing and Feature Engineering

我不明白何时同时使用 'fit' 和 'transform' 以及何时仅使用 'transform'。

以下转换器同时使用 fit 和 transform:

以下转换器仅使用转换:

我不明白什么时候同时使用拟合和变换,什么时候只使用变换。

请解释。谢谢。

最终,所有这些组件都用于 'transform' 数据、索引/缩放/分桶等。其中一些不需要了解数据的任何信息即可完成工作。例如,StopWordsRemover 只应用要删除的停用词列表,而不考虑数据。

某些组件确实需要了解它们正在操作的数据才能正确转换数据。例如,MinMaxScaler 需要知道数据的 min/max 才能执行缩放。

所以,所有这些都公开了一个 transform() 方法,但只有一些需要首先对数据进行 fit()。