spark如何处理缺失值?

How does spark handle missing values?

Apache spark 支持稀疏数据。

例如,我们可以使用MLUtils.loadLibSVMFile(...)将数据加载到RDD中。

我想知道 spark 如何处理那些 missing values

Spark 创建了一个由标记点组成的 RDD,每个标记点都有一个标签和一个特征向量。请注意,这是一个支持稀疏元素的 Spark Vector(目前,稀疏向量由一个非索引数组和每个非空值的第二个双精度数组表示)。