我应该如何开始在 Scala rdd 中解决它

How should I start solving it in Scala rdd

学生成绩存储在hdfs://Hmaster/training/dump/stdmarks1.txt

输入格式:sno,name,m1,m2,m3,branch 创建一个rdd并显示学生的学生姓名属于分支:cse 使用 println 显示学生姓名。 输出格式: xxxx 年年

我有一个示例文本文件

1,RAMESH,70,52,60,CSE

2,SOMESH,80,69,88,ECE

3,VANITA,90,73,92,CSE

4,KIRAN,74,96,68,IT

输出应该只有学生的名字:

RAMESH

VANITA

已经按照给定的方式在 hdfs 中上传了文本文件,但无法执行进一步的步骤

这是一个例子:

spark
 .read
 .option("header", "true")
 .csv(hdfsFilePath)
 .where(col("m3") === "CSE")
 .select("name")
 .distinct()
 .show()

我建议你阅读 documentation.