在小练习 RDD 上使用 .filter 和 .collect 打印所有以 'h' 开头的单词（pyspark 初学者）

Question

我刚开始学习如何在 Jupyternotebook 和初学者编码器上使用 pyspark。

为了试水，我创建了这个数组：单词 = ['hey', 'how', 'are', 'you']

然后这个RDD： wordRDD = spark.sparkContext.parallelize([word])

我现在正在尝试在 wordRDD 上使用 .filter 和 .collect 来打印所有以 'h' 开头的单词，但无法找到解决方案。有人有什么想法吗？

据我所知：

word = ['hey', 'how', 'are', 'you']
wordRDD = spark.sparkContext.parallelize([word])

print(wordRDD.filter.map(lambda x=x: x in wordRDD if x[0] == "h").collect())

Answer 1

你快到了，函数调用是RDD.filter:

words = ['hey', 'how', 'are', 'you']
wordRDD = spark.sparkContext.parallelize(words)

filterRDD = wordRDD.filter(lambda word: word.startswith("h"))
print(filterRDD.collect())

在小练习 RDD 上使用 .filter 和 .collect 打印所有以 'h' 开头的单词（pyspark 初学者）

Using .filter and .collect on small practice RDD to print all words beginning with 'h' (pyspark beginner)

python

lambda

rdd

pyspark

jupyter-notebook