创建 AWS 粘合作业是否需要爬虫?
Is crawler required for creating an AWS glue job?
我正在通过关注此页面学习使用 Pyspark 的 Glue:https://aws-dojo.com/ws8/labs/configure-crawler/。
我的问题是:创建粘合作业是否需要爬虫和在 Lake Formation 中创建数据库?
我的 aws 角色有一些问题,我无权在 LakeFormation 中创建资源,所以我在想是否可以跳过它们,只创建粘合作业并测试我的脚本?
例如,我只想针对一个输入的 .txt 文件测试我的 pyspark 脚本,我将它存储在 S3 中,我还需要爬虫吗?我可以只使用 boto3
创建粘合作业来测试脚本并进行一些预处理并将数据写回 s3 吗?
没有。您不需要为 运行 Glue Job 创建爬虫。
爬虫可以读取多个数据源并使 Glue Catalog 保持最新。
例如,当您在 S3 中对数据进行分区时,随着新分区(文件夹)的创建,我们可以安排一个爬虫作业来读取这些新的 S3 分区并更新 Glue Catalog/tables.
中的元数据
一旦使用元数据更新了 Glue 目录,我们就可以使用这些 Glue ETL 或 Athena 或其他进程轻松读取实际数据(在这些胶水后面 catalog/tables)。
在您的情况下,您想要直接读取 S3 文件并在 Glue 作业中将它们写回 S3,因此,您不需要爬虫或 Glue Catalog。
我正在通过关注此页面学习使用 Pyspark 的 Glue:https://aws-dojo.com/ws8/labs/configure-crawler/。
我的问题是:创建粘合作业是否需要爬虫和在 Lake Formation 中创建数据库?
我的 aws 角色有一些问题,我无权在 LakeFormation 中创建资源,所以我在想是否可以跳过它们,只创建粘合作业并测试我的脚本?
例如,我只想针对一个输入的 .txt 文件测试我的 pyspark 脚本,我将它存储在 S3 中,我还需要爬虫吗?我可以只使用 boto3
创建粘合作业来测试脚本并进行一些预处理并将数据写回 s3 吗?
没有。您不需要为 运行 Glue Job 创建爬虫。
爬虫可以读取多个数据源并使 Glue Catalog 保持最新。 例如,当您在 S3 中对数据进行分区时,随着新分区(文件夹)的创建,我们可以安排一个爬虫作业来读取这些新的 S3 分区并更新 Glue Catalog/tables.
中的元数据一旦使用元数据更新了 Glue 目录,我们就可以使用这些 Glue ETL 或 Athena 或其他进程轻松读取实际数据(在这些胶水后面 catalog/tables)。
在您的情况下,您想要直接读取 S3 文件并在 Glue 作业中将它们写回 S3,因此,您不需要爬虫或 Glue Catalog。