如何将多个源映射到 AWS Glue 作业中的单个目标
How to map multiple sources to a single target in a AWS Glue Job
我有一个 MySQL 数据库和一个 Mongo 数据库,它们合并包含 200 个 tables,我正在尝试将其连接到 Glue 并合并一些 tables在一起最终得到 20 table 的合并数据以及一些过滤器和脚本,这些过滤器和脚本会在数据到达需要的地方之前过滤掉其中的一些数据。
我正在使用 AWS Glue 来执行此操作,在使用爬虫生成 1-1 table 之后,我想开始将这些 table 合并在一起,但是当我创建作业时,我可以只有 select 个 table 作为来源,这意味着我最终会得到 200 个工作岗位。
有没有一种方法可以使作业指向多个来源并将它们映射到单个 table,如下面的屏幕截图所示?
我应该改用其他工具还是在其他地方执行该步骤(即使用 DMS 并为抓取工具生成另一个目的地?)
您应该使用代码级方法来执行此操作,方法是将每个 table 映射到单独的 dataframes/dynamic 框架并将这些框架连接在一起,然后 printing/mapping 它与目标架构一起使用应用映射函数。这是一个使用 pyspark 连接或合并两个 tables 的清晰示例:
我有一个 MySQL 数据库和一个 Mongo 数据库,它们合并包含 200 个 tables,我正在尝试将其连接到 Glue 并合并一些 tables在一起最终得到 20 table 的合并数据以及一些过滤器和脚本,这些过滤器和脚本会在数据到达需要的地方之前过滤掉其中的一些数据。
我正在使用 AWS Glue 来执行此操作,在使用爬虫生成 1-1 table 之后,我想开始将这些 table 合并在一起,但是当我创建作业时,我可以只有 select 个 table 作为来源,这意味着我最终会得到 200 个工作岗位。
有没有一种方法可以使作业指向多个来源并将它们映射到单个 table,如下面的屏幕截图所示?
我应该改用其他工具还是在其他地方执行该步骤(即使用 DMS 并为抓取工具生成另一个目的地?)
您应该使用代码级方法来执行此操作,方法是将每个 table 映射到单独的 dataframes/dynamic 框架并将这些框架连接在一起,然后 printing/mapping 它与目标架构一起使用应用映射函数。这是一个使用 pyspark 连接或合并两个 tables 的清晰示例: