使用本地文件系统作为 Flume 来源

Using local file system as Flume source

我刚刚开始学习大数据,此时我正在研究 Flume。我遇到的常见示例是使用一些 Java.

处理推文(来自 Cloudera 的示例)

仅出于测试和模拟目的,我可以将本地文件系统用作 Flume 源吗?特别是一些 Excel 或 CSV 文件?除了 Flume 配置文件之外,我是否还需要使用一些 Java 代码,就像在 Twitter 提取中一样?

此源是事件驱动的还是可轮询的?

感谢您的意见。

我假设您使用的是 cloudera 沙箱,并且正在谈论将文件放在您计划启动的 flume 代理的本地沙箱中。 flume 代理包含:

来源 渠道 水槽

这些应该位于 flume 代理的本地。可用 flume 源列表在用户指南中:https://flume.apache.org/FlumeUserGuide.html。如果您只想使用 tail 或 cat 命令从文件流式传输数据,则可以使用 Exec 源。 您还可以使用假脱机目录源将监视指定目录中的新文件,并在新文件出现时从中解析事件。 仔细阅读用户指南。应有尽有。