Hadoop - 当数据到达 hdfs 时执行脚本

Hadoop - Execute script when data arrives in hdfs

Hadoop 生态系统中是否有一个工具可以真正知道是否有新数据已添加到 HDFS 文件系统?

实际上我想从外部数据库远程执行一个 sqoop 导入作业(没有合并,只有新 table)。然后当这些数据写入 HDFS 时,它会执行一个 spark 脚本来处理新添加的数据并做一些事情。

Hadoop 中是否有任何功能可以完成这种工作?

我完全可以在 sqoop 导入作业完成后执行 spark 脚本,但我想知道是否存在这样的功能,但我还没有找到。

提前致谢。

是的。有。 Hadoop 生态系统中有一个名为 Oozie 的工作流工具可以处理这种情况。

Oozie 提供了可以根据固定时间表或数据可用性触发 运行 的工作流。在您的情况下,它将被视为数据可用性。在 Oozie 文档中查看更多详细信息:Oozie doc for coordinator job