如何执行 AWS emr 和 redshift 脚本?

How to execute AWS emr and redshift scripts?

我在 S3 folder 中有文件,我必须使用 EMR 中的 PiG scripts 进行转换,然后加载回 s3。

之后,我在 redshift 中创建了从 S3 加载的表。

目前,我已经使用 SQL 工作台从 s3 加载文件,并且我已经从 AWS GUI window.

执行了 pig 脚本

我想知道如何从 unix shell 调用 pig 脚本? 除了 sqlworkbench 之外,我如何执行 redshift 脚本? 我怎样才能按顺序 运行 它们?

我是否需要设置 EC2 Linux 才能连接到 EMR? 注意:我也有一个 Windows EC2 实例。

首先你需要使用EMR启动器代码,你可以使用amazon cli或者amazon java SDK来做。使用它您可以启动 EMR 作业。

您也可以使用 amazon EMR 控制台创建集群。请 select step pig 程序并为您的 pig 脚本提供路径,即 S3。 在路径中指定 S3 中的输入位置和到 s3 的输出位置。启动作业。

作业结束后,它将输出写入 s3。

作业成功完成后,启动脚本(python、shell 或 java 代码)以触发复制命令。此脚本应连接到您的 redshift 集群,将处理后的内容从 S3 复制到 redshift table .

您可以从本地计算机连接 EMR 和 redshift,或者您可以使用 EC2 触发您的 EMR 启动器和 redshift 加载程序脚本。