Hadoop 摄取自动化技术

Hadoop Ingestion automation techniques

我的背景是;

10 个 csv 文件在夜间上传到我的服务器。

我的流程是:

我正在寻找使第一部分自动化并触发第二部分的最佳做法。

我也看到了 https://kylo.io/ ,它很完美,但我认为将其投入生产还为时过早。

提前致谢。

Oozie 和 Nifi 都将与 flume、hive 和 spark 操作结合使用。

所以您的(Oozie 或 Nifi)工作流程应该像这样工作

  1. cron 作业(或时间表)启动工作流。

  2. 工作流程的第一步是 Flume 在所需的 HDFS 目录中加载数据的过程。您可以在没有 Flume 的情况下仅使用 HDFS 命令来执行此操作,但这将有助于维护您的解决方案以备将来使用。

  3. 对 create/update 的蜂巢操作 table

  4. 执行自定义 spark 程序的 Spark 动作

确保通过适当的日志记录和通知处理工作流中的错误,以便您可以在生产中使工作流合理化。