将 20GB CSV 文件导入 Hadoop 的最佳方法
Best way to import 20GB CSV file to Hadoop
我有一个巨大的 20GB CSV 文件要复制到 Hadoop/HDFS。当然,我需要管理任何错误情况(如果服务器或 transfer/load 应用程序崩溃)。
在这种情况下,我需要重新开始处理(在另一个节点或不在另一个节点)并继续传输而不从头开始 CSV 文件。
最好和最简单的方法是什么?
使用Flume?啪?本机 Java 应用程序?火花?
非常感谢。
如果文件未托管在 HDFS 中,flume 将无法并行化该文件(与 Spark 或其他基于 Hadoop 的框架存在相同问题)。您可以将 HDFS 挂载到 NFS 上然后使用文件复制吗?
使用 flume 读取的一个优点是读取文件并将每一行作为单独的记录发布,然后发布这些记录并让 flume 一次将一条记录写入 HDFS,如果出问题了,您可以从该记录开始,而不是从头开始。
我有一个巨大的 20GB CSV 文件要复制到 Hadoop/HDFS。当然,我需要管理任何错误情况(如果服务器或 transfer/load 应用程序崩溃)。
在这种情况下,我需要重新开始处理(在另一个节点或不在另一个节点)并继续传输而不从头开始 CSV 文件。
最好和最简单的方法是什么?
使用Flume?啪?本机 Java 应用程序?火花?
非常感谢。
如果文件未托管在 HDFS 中,flume 将无法并行化该文件(与 Spark 或其他基于 Hadoop 的框架存在相同问题)。您可以将 HDFS 挂载到 NFS 上然后使用文件复制吗?
使用 flume 读取的一个优点是读取文件并将每一行作为单独的记录发布,然后发布这些记录并让 flume 一次将一条记录写入 HDFS,如果出问题了,您可以从该记录开始,而不是从头开始。