文件传输到 HDFS
Files transfer to HDFS
我需要将文件(zip、csv、xml 等)从 windows 共享位置带到 HDFS。哪种方法最好?我想到了 kafka - flume - hdfs。请提出有效的方法。
我尝试将文件发送给 Kafka 消费者。
producer.send(
新的 ProducerRecord(topicName,key,value),
期待有效的方法
Kafka 不是为发送文件而设计的,默认情况下只能发送最大 1MB 的单个消息。
您可以在 Hadoop 中安装 NFS 网关,那么您应该可以直接从 windows 共享复制到 HDFS,无需任何流技术,只需在 windows 机器上执行计划脚本,或者外部 运行
或者您可以将 windows 共享挂载到某个 Hadoop 节点上,如果您需要持续的文件传输,则安排一个 Cron 作业 - https://superuser.com/a/1439984/475508
我见过的其他解决方案使用 Nifi / Streamsets 等工具,可用于 read/move 文件
https://community.hortonworks.com/articles/26089/windows-share-nifi-hdfs-a-practical-guide.html
我需要将文件(zip、csv、xml 等)从 windows 共享位置带到 HDFS。哪种方法最好?我想到了 kafka - flume - hdfs。请提出有效的方法。
我尝试将文件发送给 Kafka 消费者。
producer.send( 新的 ProducerRecord(topicName,key,value),
期待有效的方法
Kafka 不是为发送文件而设计的,默认情况下只能发送最大 1MB 的单个消息。
您可以在 Hadoop 中安装 NFS 网关,那么您应该可以直接从 windows 共享复制到 HDFS,无需任何流技术,只需在 windows 机器上执行计划脚本,或者外部 运行
或者您可以将 windows 共享挂载到某个 Hadoop 节点上,如果您需要持续的文件传输,则安排一个 Cron 作业 - https://superuser.com/a/1439984/475508
我见过的其他解决方案使用 Nifi / Streamsets 等工具,可用于 read/move 文件
https://community.hortonworks.com/articles/26089/windows-share-nifi-hdfs-a-practical-guide.html