稀疏向量与密集向量

Question

如何创建 SparseVector 和密集的矢量表示

如果 DenseVector 是：

denseV = np.array([0., 3., 0., 4.])

稀疏向量表示是什么？

Answer 1

除非我完全误解了你的疑问，MLlib data type documentation 非常清楚地说明了这一点：

import org.apache.spark.mllib.linalg.Vector;
import org.apache.spark.mllib.linalg.Vectors;

// Create a dense vector (1.0, 0.0, 3.0).
Vector dv = Vectors.dense(1.0, 0.0, 3.0);
// Create a sparse vector (1.0, 0.0, 3.0) by specifying its indices and values corresponding to nonzero entries.
Vector sv = Vectors.sparse(3, new int[] {0, 2}, new double[] {1.0, 3.0});

其中 Vectors.sparse 的第二个参数是索引数组，第三个参数是这些索引中实际值的数组。

Answer 2

稀疏向量是指向量中有很多值为零的情况。而密集向量是指向量中的大多数值都不为零。

如果您必须从指定的密集向量创建稀疏向量，请使用以下语法：

import org.apache.spark.mllib.linalg.Vector;
import org.apache.spark.mllib.linalg.Vectors;

Vector sparseVector = Vectors.sparse(4, new int[] {1, 3}, new double[] {3.0, 4.0});

稀疏向量与密集向量

Sparse Vector vs Dense Vector

apache-spark

apache-spark-mllib