如何根据字段将数据从 CSV 加载到单独的 Hadoop HDFS 目录中

How to Load data from CSV into separate Hadoop HDFS directories based on fields

我有一个 CSV 数据，我需要根据某个字段（年份）将其加载到 HDFS 目录中。我打算使用 Java。我看过使用 BufferedReader 但是我在实现它时遇到了麻烦。这是用于此任务的最佳方法还是有更好的方法？

使用 Spark 将 CSV 读入数据帧。

在写入 HDFS 期间使用 partitionBy("year")，它将在以 year= 开头的路径下为每个唯一值创建子文件夹。