spark如何处理缺失值?
How does spark handle missing values?
Apache spark 支持稀疏数据。
例如,我们可以使用MLUtils.loadLibSVMFile(...)
将数据加载到RDD
中。
我想知道 spark
如何处理那些 missing values
。
Spark 创建了一个由标记点组成的 RDD,每个标记点都有一个标签和一个特征向量。请注意,这是一个支持稀疏元素的 Spark Vector(目前,稀疏向量由一个非索引数组和每个非空值的第二个双精度数组表示)。
Apache spark 支持稀疏数据。
例如,我们可以使用MLUtils.loadLibSVMFile(...)
将数据加载到RDD
中。
我想知道 spark
如何处理那些 missing values
。
Spark 创建了一个由标记点组成的 RDD,每个标记点都有一个标签和一个特征向量。请注意,这是一个支持稀疏元素的 Spark Vector(目前,稀疏向量由一个非索引数组和每个非空值的第二个双精度数组表示)。