Hadoop 摄取自动化技术
Hadoop Ingestion automation techniques
我的背景是;
10 个 csv 文件在夜间上传到我的服务器。
我的流程是:
摄取:
- 将文件放到 HDFS
- 创建 ORC Hive Table 并将数据放入其中。
处理中:
- Spark 处理:转换、清理、连接 ....
- 很多链式步骤(Spark Job)
我正在寻找使第一部分自动化并触发第二部分的最佳做法。
- Cron、sh、dfs 放置。
- 奥齐?
- 阿帕奇尼菲?
- Flume?
- 电话:(
我也看到了 https://kylo.io/ ,它很完美,但我认为将其投入生产还为时过早。
提前致谢。
Oozie 和 Nifi 都将与 flume、hive 和 spark 操作结合使用。
所以您的(Oozie 或 Nifi)工作流程应该像这样工作
cron 作业(或时间表)启动工作流。
工作流程的第一步是 Flume 在所需的 HDFS 目录中加载数据的过程。您可以在没有 Flume 的情况下仅使用 HDFS 命令来执行此操作,但这将有助于维护您的解决方案以备将来使用。
对 create/update 的蜂巢操作 table
执行自定义 spark 程序的 Spark 动作
确保通过适当的日志记录和通知处理工作流中的错误,以便您可以在生产中使工作流合理化。
我的背景是;
10 个 csv 文件在夜间上传到我的服务器。
我的流程是:
摄取:
- 将文件放到 HDFS
- 创建 ORC Hive Table 并将数据放入其中。
处理中:
- Spark 处理:转换、清理、连接 ....
- 很多链式步骤(Spark Job)
我正在寻找使第一部分自动化并触发第二部分的最佳做法。
- Cron、sh、dfs 放置。
- 奥齐?
- 阿帕奇尼菲?
- Flume?
- 电话:(
我也看到了 https://kylo.io/ ,它很完美,但我认为将其投入生产还为时过早。
提前致谢。
Oozie 和 Nifi 都将与 flume、hive 和 spark 操作结合使用。
所以您的(Oozie 或 Nifi)工作流程应该像这样工作
cron 作业(或时间表)启动工作流。
工作流程的第一步是 Flume 在所需的 HDFS 目录中加载数据的过程。您可以在没有 Flume 的情况下仅使用 HDFS 命令来执行此操作,但这将有助于维护您的解决方案以备将来使用。
对 create/update 的蜂巢操作 table
执行自定义 spark 程序的 Spark 动作
确保通过适当的日志记录和通知处理工作流中的错误,以便您可以在生产中使工作流合理化。