运行 EMR上传文件的集群步骤

Run the cluster steps for file upload on EMR

我有一个包含多个步骤的 EMR 集群。我正在尝试分析每周收到的日志数据。我想 运行 每周对附加数据执行相同的步骤。

龙-运行宁丛:

  1. data source 加载日志文件(如果是后续 运行,则从日志文件加载或复制记录)
  2. 分析数据
  3. Return数据到目的地

如何 运行 每周在集群上执行相同的步骤?

或者我是否需要每周启动新集群?

如果我能在这种处理大量数据的场景中得到一些关于数据源类型的指导,那就太好了。

您可以通过调用 add-steps — AWS CLI Command Reference 向集群提交新步骤。

因此,您需要在某处调用集群的 cron 作业来添加步骤。您可以在主节点上创建 cron 作业,或者有无数的 Hadoop 工具可以安排和编排作业。

您当然不需要一个新节点,因为您已经有一个集群在运行。