处理 spark mllib 分类器中的 null/NaN 个值

Handle null/NaN values in spark mllib classifier

我有一组分类列(字符串),我正在解析这些列并将其转换为特征向量以传递给 mllib 分类器(随机森林)。

在我的输入数据中,某些列具有空值。比如说,在其中一列中,我有 p 值 + 空值: 我应该如何构建我的特征向量和分类器的 categoricalFeaturesInfo 映射?

感谢您的帮助。

(PS : 我知道新的 dataframe + pipeline + vectorindexer API, 但由于某些原因它不太符合我的需要,所以我需要自己做)

看起来选项 2 是一个。如果 null 对您来说实际上是分类特征的另一个级别,只需将其映射到某个值即可。 请注意,分类特征级别应映射到 0、1、2 .... 等,然后才能正确使用它们,请参见此处:

因此空值将映射到这些数字之一。