zipWithIndex 在 PySpark 中失败
zipWithIndex fails in PySpark
我有这样的 RDD
>>> termCounts.collect()
[(2, 'good'), (2, 'big'), (1, 'love'), (1, 'sucks'), (1, 'sachin'), (1, 'formulas'), (1, 'batsman'), (1, 'time'), (1, 'virat'), (1, 'modi')]
当我压缩它来创建一个字典时,它给了我一些随机输出
>>> vocabulary = termCounts.map(lambda x: x[1]).zipWithIndex().collectAsMap()
>>> vocabulary
{'formulas': 5, 'good': 0, 'love': 2, 'modi': 9, 'big': 1, 'batsman': 6, 'sucks': 3, 'time': 7, 'virat': 8, 'sachin': 4}
这是预期的输出吗?我想创建一个字典,每个单词作为键,它们各自的计数作为值
word和occurrence需要这样写,
vocabulary =termCounts.map(lambda x: (x[1], x[0])).collectAsMap()
OF,你写的代码会打印list中pair的单词和索引。
我有这样的 RDD
>>> termCounts.collect()
[(2, 'good'), (2, 'big'), (1, 'love'), (1, 'sucks'), (1, 'sachin'), (1, 'formulas'), (1, 'batsman'), (1, 'time'), (1, 'virat'), (1, 'modi')]
当我压缩它来创建一个字典时,它给了我一些随机输出
>>> vocabulary = termCounts.map(lambda x: x[1]).zipWithIndex().collectAsMap()
>>> vocabulary
{'formulas': 5, 'good': 0, 'love': 2, 'modi': 9, 'big': 1, 'batsman': 6, 'sucks': 3, 'time': 7, 'virat': 8, 'sachin': 4}
这是预期的输出吗?我想创建一个字典,每个单词作为键,它们各自的计数作为值
word和occurrence需要这样写,
vocabulary =termCounts.map(lambda x: (x[1], x[0])).collectAsMap()
OF,你写的代码会打印list中pair的单词和索引。