Spark 权威指南:第 25 章 - 预处理和特征工程
Spark The Definitive Guide: Chapter 25 - Preprocessing and Feature Engineering
我不明白何时同时使用 'fit' 和 'transform' 以及何时仅使用 'transform'。
以下转换器同时使用 fit 和 transform:
- R公式
- QuantileDiscretizer
- 标准缩放器
- 最小最大缩放器
- MaxAbsScaler
- 字符串索引器
- 向量索引器
- CountVectorizer
- PCA
- 卡方选择器
以下转换器仅使用转换:
- SQLTransformer
- VectorAssembler
- 分桶器
- ElementWiseProduct
- 标准化器
- IndexToString
- OneHotEncoder
- 分词器
- RegexTokenizer
- StopWordsRemover
- NGram
我不明白什么时候同时使用拟合和变换,什么时候只使用变换。
请解释。谢谢。
最终,所有这些组件都用于 'transform' 数据、索引/缩放/分桶等。其中一些不需要了解数据的任何信息即可完成工作。例如,StopWordsRemover 只应用要删除的停用词列表,而不考虑数据。
某些组件确实需要了解它们正在操作的数据才能正确转换数据。例如,MinMaxScaler 需要知道数据的 min/max 才能执行缩放。
所以,所有这些都公开了一个 transform() 方法,但只有一些需要首先对数据进行 fit()。
我不明白何时同时使用 'fit' 和 'transform' 以及何时仅使用 'transform'。
以下转换器同时使用 fit 和 transform:
- R公式
- QuantileDiscretizer
- 标准缩放器
- 最小最大缩放器
- MaxAbsScaler
- 字符串索引器
- 向量索引器
- CountVectorizer
- PCA
- 卡方选择器
以下转换器仅使用转换:
- SQLTransformer
- VectorAssembler
- 分桶器
- ElementWiseProduct
- 标准化器
- IndexToString
- OneHotEncoder
- 分词器
- RegexTokenizer
- StopWordsRemover
- NGram
我不明白什么时候同时使用拟合和变换,什么时候只使用变换。
请解释。谢谢。
最终,所有这些组件都用于 'transform' 数据、索引/缩放/分桶等。其中一些不需要了解数据的任何信息即可完成工作。例如,StopWordsRemover 只应用要删除的停用词列表,而不考虑数据。
某些组件确实需要了解它们正在操作的数据才能正确转换数据。例如,MinMaxScaler 需要知道数据的 min/max 才能执行缩放。
所以,所有这些都公开了一个 transform() 方法,但只有一些需要首先对数据进行 fit()。