Pyspark 将 RowMatrix 转换为 DataFrame 或 RDD
Pyspark converting RowMatrix to DataFrame or RDD
我有一个方形的 pyspark RowMatrix
,看起来像这样:
>>> row_mat.numRows()
100
>>> row_mat.numCols()
100
>>> row_mat.rows.first()
SparseVector(100, {0: 0.0, 1: 0.0018, 2: 0.1562, 3: 0.0342...})
我想运行 pyspark.ml.feature.PCA
, but its fit()
方法只接受一个DataFrame
。有没有办法将这个 RowMatrix
转换成 DataFrame
?
或者有更好的方法吗?
使用:
row_mat.rows.map(lambda x: (x, )).toDF()
我有一个方形的 pyspark RowMatrix
,看起来像这样:
>>> row_mat.numRows()
100
>>> row_mat.numCols()
100
>>> row_mat.rows.first()
SparseVector(100, {0: 0.0, 1: 0.0018, 2: 0.1562, 3: 0.0342...})
我想运行 pyspark.ml.feature.PCA
, but its fit()
方法只接受一个DataFrame
。有没有办法将这个 RowMatrix
转换成 DataFrame
?
或者有更好的方法吗?
使用:
row_mat.rows.map(lambda x: (x, )).toDF()