如何根据字段将数据从 CSV 加载到单独的 Hadoop HDFS 目录中
How to Load data from CSV into separate Hadoop HDFS directories based on fields
我有一个 CSV 数据,我需要根据某个字段(年份)将其加载到 HDFS 目录中。我打算使用 Java。我看过使用 BufferedReader 但是我在实现它时遇到了麻烦。这是用于此任务的最佳方法还是有更好的方法?
使用 Spark 将 CSV 读入数据帧。
在写入 HDFS 期间使用 partitionBy("year")
,它将在以 year=
开头的路径下为每个唯一值创建子文件夹。
我有一个 CSV 数据,我需要根据某个字段(年份)将其加载到 HDFS 目录中。我打算使用 Java。我看过使用 BufferedReader 但是我在实现它时遇到了麻烦。这是用于此任务的最佳方法还是有更好的方法?
使用 Spark 将 CSV 读入数据帧。
在写入 HDFS 期间使用 partitionBy("year")
,它将在以 year=
开头的路径下为每个唯一值创建子文件夹。