Hadoop 摄取自动化技术

Hadoop Ingestion automation techniques

我的背景是；

10 个 csv 文件在夜间上传到我的服务器。

我的流程是：

我正在寻找使第一部分自动化并触发第二部分的最佳做法。

我也看到了 https://kylo.io/ ，它很完美，但我认为将其投入生产还为时过早。

提前致谢。

Oozie 和 Nifi 都将与 flume、hive 和 spark 操作结合使用。

所以您的（Oozie 或 Nifi）工作流程应该像这样工作

cron 作业（或时间表）启动工作流。
工作流程的第一步是 Flume 在所需的 HDFS 目录中加载数据的过程。您可以在没有 Flume 的情况下仅使用 HDFS 命令来执行此操作，但这将有助于维护您的解决方案以备将来使用。
对 create/update 的蜂巢操作 table
执行自定义 spark 程序的 Spark 动作

确保通过适当的日志记录和通知处理工作流中的错误，以便您可以在生产中使工作流合理化。