将分类测试数据加载到 Apache Spark 中的稀疏向量中
Load classification test data into sparse vector in Apache Spark
我在 Spark MLlib 中有一个分类模型,它是使用训练数据构建的。现在我想用它来预测未标记的数据。
我有 LIBSVM 格式的特征(没有标签)。这是我的未标记数据的示例
1:1 18:1
4:1 32:1
2:1 8:1 33:1
1:1 6:1 11:1
1:1 2:1 8:1 28:1
我将这些功能保存在 HDFS 上的文本文件中。如何将它们加载到 RDD[Vector] 中,以便将它们传递给 model.predict()?
我使用 Scala 进行编码。
谢谢。
这里有一个解决方案,考虑到索引是基于一个的并且是升序的。
让我们创建一些类似于文本文件中的虚拟数据。
val data = sc.parallelize(Seq("1:1 18:1", "4:1 32:1", "2:1 8:1 33:1", "1:1 6:1 11:1", "1:1 2:1 8:1 28:1"))
我们现在可以将数据转换成一对 RDD
索引和值。
val parsed = data.map(_.trim).map { line =>
val items = line.split(' ')
val (indices, values) = items.filter(_.nonEmpty).map { item =>
val indexAndValue = item.split(':')
val index = indexAndValue(0).toInt - 1 // Convert 1-based indices to 0-based.
val value = indexAndValue(1).toDouble
(index, value)
}.unzip
(indices.toArray, values.toArray)
}
获取特征数量
val numFeatures = parsed.map { case (indices, values) => indices.lastOption.getOrElse(0) }.reduce(math.max) + 1
最后创建向量
val vectors = parsed.map { case (indices, values) => Vectors.sparse(numFeatures, indices, values) }
vectors.take(10) foreach println
// (33,[0,17],[1.0,1.0])
// (33,[3,31],[1.0,1.0])
// (33,[1,7,32],[1.0,1.0,1.0])
// (33,[0,5,10],[1.0,1.0,1.0])
// (33,[0,1,7,27],[1.0,1.0,1.0,1.0])
我在 Spark MLlib 中有一个分类模型,它是使用训练数据构建的。现在我想用它来预测未标记的数据。
我有 LIBSVM 格式的特征(没有标签)。这是我的未标记数据的示例
1:1 18:1
4:1 32:1
2:1 8:1 33:1
1:1 6:1 11:1
1:1 2:1 8:1 28:1
我将这些功能保存在 HDFS 上的文本文件中。如何将它们加载到 RDD[Vector] 中,以便将它们传递给 model.predict()?
我使用 Scala 进行编码。
谢谢。
这里有一个解决方案,考虑到索引是基于一个的并且是升序的。
让我们创建一些类似于文本文件中的虚拟数据。
val data = sc.parallelize(Seq("1:1 18:1", "4:1 32:1", "2:1 8:1 33:1", "1:1 6:1 11:1", "1:1 2:1 8:1 28:1"))
我们现在可以将数据转换成一对 RDD
索引和值。
val parsed = data.map(_.trim).map { line =>
val items = line.split(' ')
val (indices, values) = items.filter(_.nonEmpty).map { item =>
val indexAndValue = item.split(':')
val index = indexAndValue(0).toInt - 1 // Convert 1-based indices to 0-based.
val value = indexAndValue(1).toDouble
(index, value)
}.unzip
(indices.toArray, values.toArray)
}
获取特征数量
val numFeatures = parsed.map { case (indices, values) => indices.lastOption.getOrElse(0) }.reduce(math.max) + 1
最后创建向量
val vectors = parsed.map { case (indices, values) => Vectors.sparse(numFeatures, indices, values) }
vectors.take(10) foreach println
// (33,[0,17],[1.0,1.0])
// (33,[3,31],[1.0,1.0])
// (33,[1,7,32],[1.0,1.0,1.0])
// (33,[0,5,10],[1.0,1.0,1.0])
// (33,[0,1,7,27],[1.0,1.0,1.0,1.0])