pyspark 中的稀疏矩阵/ CSC 矩阵

sparse Matrix/ CSC Matrix in pyspark

谁能解释一下稀疏矩阵或 CSC 矩阵。

Column-major sparse matrix. The entry values are stored in Compressed Sparse Column (CSC) format. For example, the following matrix

   1.0 0.0 4.0
   0.0 3.0 5.0
   2.0 0.0 6.0
 
is stored as values: [1.0, 2.0, 3.0, 4.0, 5.0, 6.0], rowIndices=[0, 2, 1, 0, 1, 2], colPointers=[0, 2, 3, 6].

我从https://spark.apache.org/docs/1.6.1/api/java/org/apache/spark/mllib/linalg/SparseMatrix.html

得到上面的例子

但是,我明白了什么是values,而RowIndices却不懂colpointer。有人可以帮助我理解它吗?

[0, 2, 3, 6]

第一列的数据和行索引[0:2]

第 2 列 [2:3]

第三次 [3:6]

或者换个角度来看,差异 [2,1,3] 告诉我们每列中有多少个术语。