我应该如何开始在 Scala rdd 中解决它

Question

学生成绩存储在hdfs://Hmaster/training/dump/stdmarks1.txt

输入格式：sno,name,m1,m2,m3,branch 创建一个rdd并显示学生的学生姓名属于分支：cse 使用 println 显示学生姓名。输出格式： xxxx 年年

我有一个示例文本文件

1,RAMESH,70,52,60,CSE

2,SOMESH,80,69,88,ECE

3,VANITA,90,73,92,CSE

4,KIRAN,74,96,68,IT

输出应该只有学生的名字：

RAMESH

VANITA

已经按照给定的方式在 hdfs 中上传了文本文件，但无法执行进一步的步骤

Answer 1

这是一个例子：

spark
 .read
 .option("header", "true")
 .csv(hdfsFilePath)
 .where(col("m3") === "CSE")
 .select("name")
 .distinct()
 .show()

我建议你阅读 documentation.

How should I start solving it in Scala rdd