Pyspark - 对多个稀疏向量求和(CountVectorizer 输出)
Pyspark - Sum over multiple sparse vectors (CountVectorizer Output)
我有一个包含约 30k 个独特文档的数据集,这些文档被标记是因为它们中有特定的关键字。数据集中的一些关键字段是文档标题、文件大小、关键字和摘录(关键字周围 50 个词)。这些约 30k 个独特文档中的每一个都有多个关键字,每个文档在每个关键字的数据集中都有一行(因此,每个文档都有多行)。以下是原始数据集中关键字段的示例:
Raw Data Example
我的目标是建立一个模型来标记某些事件(孩子抱怨作业等)的文档,所以我需要向量化关键字和摘录字段,然后将它们压缩下来,这样我们每个独特的文档都有一行.
仅使用关键字作为我正在尝试做的事情的示例 - 我应用了 Tokenizer、StopWordsRemover 和 CountVectorizer,它们随后将输出一个包含计数矢量化结果的稀疏矩阵。一个稀疏向量可能类似于:sparseVector(158, {7: 1.0, 65: 1.0, 78: 2.0, 110: 1.0, 155: 3.0})
我想做以下两件事之一:
- 将稀疏向量转换为密集向量,然后我可以按 docID 分组并对每一列求和(一列 = 一个标记)
- 直接对稀疏向量求和(按 docID 分组)
为了让您了解我的意思 - 下图左侧是 CountVectorizer 输出的所需密集向量表示,左侧是我想要的最终数据集。
CountVectorizer Output & Desired Dataset
我会尝试:
>>> from pyspark.ml.linalg import SparseVector, DenseVector
>>>
>>> df = sc.parallelize([
... (1, SparseVector(158, {7: 1.0, 65: 1.0, 78: 2.0, 110: 1.0, 155: 3.0})),
... (1, SparseVector(158, {99: 100.0})),
... (2, SparseVector(158, {1: 1.0})),
... ]).toDF(["docId", "features"])
>>> df.rdd.mapValues(lambda v: v.toArray()) \
... .reduceByKey(lambda x, y: x + y) \
... .mapValues(lambda x: DenseVector(x)) \
... .toDF(["docId", "features"])
我有一个包含约 30k 个独特文档的数据集,这些文档被标记是因为它们中有特定的关键字。数据集中的一些关键字段是文档标题、文件大小、关键字和摘录(关键字周围 50 个词)。这些约 30k 个独特文档中的每一个都有多个关键字,每个文档在每个关键字的数据集中都有一行(因此,每个文档都有多行)。以下是原始数据集中关键字段的示例:
Raw Data Example
我的目标是建立一个模型来标记某些事件(孩子抱怨作业等)的文档,所以我需要向量化关键字和摘录字段,然后将它们压缩下来,这样我们每个独特的文档都有一行.
仅使用关键字作为我正在尝试做的事情的示例 - 我应用了 Tokenizer、StopWordsRemover 和 CountVectorizer,它们随后将输出一个包含计数矢量化结果的稀疏矩阵。一个稀疏向量可能类似于:sparseVector(158, {7: 1.0, 65: 1.0, 78: 2.0, 110: 1.0, 155: 3.0})
我想做以下两件事之一:
- 将稀疏向量转换为密集向量,然后我可以按 docID 分组并对每一列求和(一列 = 一个标记)
- 直接对稀疏向量求和(按 docID 分组)
为了让您了解我的意思 - 下图左侧是 CountVectorizer 输出的所需密集向量表示,左侧是我想要的最终数据集。
CountVectorizer Output & Desired Dataset
我会尝试:
>>> from pyspark.ml.linalg import SparseVector, DenseVector
>>>
>>> df = sc.parallelize([
... (1, SparseVector(158, {7: 1.0, 65: 1.0, 78: 2.0, 110: 1.0, 155: 3.0})),
... (1, SparseVector(158, {99: 100.0})),
... (2, SparseVector(158, {1: 1.0})),
... ]).toDF(["docId", "features"])
>>> df.rdd.mapValues(lambda v: v.toArray()) \
... .reduceByKey(lambda x, y: x + y) \
... .mapValues(lambda x: DenseVector(x)) \
... .toDF(["docId", "features"])