FlatMap 值及其列索引

FlatMap Values and Their Column Index

假设我有一个数据集

0,11,2,3,4,5,56,7
0,1,21,13,45,5,61,75
01,1,2,3,54,55,6,75

我想要做的是将值平面映射到作为列索引的键和作为值的值。谁能给我指导?我发现很难获得列索引。

假设你的RDD是序列类型的,你可以这样做:

rdd.flatMap(line => line.zipWithIndex.map(tuple => tuple.swap))

创建键值对,其中键是列表索引,值是该索引处的值可能如下所示:

rdd.flatMap(lambda x: enumerate(x))

这当然是假设您的数据已经是一个 RDD。