文件传输到 HDFS

Files transfer to HDFS

我需要将文件(zip、csv、xml 等)从 windows 共享位置带到 HDFS。哪种方法最好?我想到了 kafka - flume - hdfs。请提出有效的方法。

我尝试将文件发送给 Kafka 消费者。

producer.send( 新的 ProducerRecord(topicName,key,value),

期待有效的方法

Kafka 不是为发送文件而设计的,默认情况下只能发送最大 1MB 的单个消息。

您可以在 Hadoop 中安装 NFS 网关,那么您应该可以直接从 windows 共享复制到 HDFS,无需任何流技术,只需在 windows 机器上执行计划脚本,或者外部 运行

或者您可以将 windows 共享挂载到某个 Hadoop 节点上,如果您需要持续的文件传输,则安排一个 Cron 作业 - https://superuser.com/a/1439984/475508

我见过的其他解决方案使用 Nifi / Streamsets 等工具,可用于 read/move 文件
https://community.hortonworks.com/articles/26089/windows-share-nifi-hdfs-a-practical-guide.html