有没有办法将我的 DynamoDB 导出任务分组到一个 EMR 集群上?
Is there a way to group my DynamoDB export tasks on one EMR cluster?
当我通过 DynamoDB 控制台中的导出功能设置重新发生的备份时,它创建的任务会在 运行 时自动创建一个新的 EMR 集群。我的一些表需要备份但相当小。我最终得到的是大量大型服务器 运行 备份一些相对较小的表。有什么简单的方法可以将这些任务串联或并行地链接到一个服务器组上的 运行?
是的,这是可能的。没有直接的方法,但需要在数据管道端进行一些额外的调整。您需要了解默认情况下 Data-Pipeline 实际上 运行 如何执行您的导出作业。
当您单击 DDB 控制台上的导出按钮时,它会将您带到 Data-Pipelines 控制台以创建用于导出的管道。
填写模板后,您可以使用 Edit in Architect
功能来更改仅适用于一个 table 的当前模板,而不是 运行ning。
在架构师页面上,如果您观察 Activities
部分,您会发现 EmrAcvity 运行 使用以下参数设置 EMR STEP。此 EMR 步骤将 运行 使用您最初在模板上传递的参数导出作业。请注意,它还将 RunsOn
EMRclusterforBackup
资源,您可以在资源部分找到这些资源。
s3://dynamodb-emr-#{myDDBRegion}/emr-ddb-storage-handler/2.1.0/emr-ddb-2.1.0.jar,org.apache.hadoop.dynamodb.tools.DynamoDbExport,#{output.directoryPath},#{input.tableName},#{input.readThroughputPercent}
- 要使用相同的 EMR 资源 运行 在其他 DDB table 上导出,您只需单击
Add
创建另一个 EMRActivity 对象,然后在架构师上添加 EMRActivity。在此 activity 上,您可以使用与之前 activity 相同的 RunsOn
,并且在 STEP 参数中,您可以手动编辑以包含其他 table 名称及其导出路径
喜欢
s3://dynamodb-emr-#{myDDBRegion}/emr-ddb-storage-handler/2.1.0/emr-ddb-2.1.0.jar,org.apache.hadoop.dynamodb.tools.DynamoDbExport,s3://myexport-bucket/table2/,table2,0.9
- 您可以将其扩展多个 table。
注意:这可以很容易地为多个 table 完成,使用 JSON 文件作为数据管道定义,编辑它以添加更多活动和参数,然后将其导出到 运行 稍后。
当我通过 DynamoDB 控制台中的导出功能设置重新发生的备份时,它创建的任务会在 运行 时自动创建一个新的 EMR 集群。我的一些表需要备份但相当小。我最终得到的是大量大型服务器 运行 备份一些相对较小的表。有什么简单的方法可以将这些任务串联或并行地链接到一个服务器组上的 运行?
是的,这是可能的。没有直接的方法,但需要在数据管道端进行一些额外的调整。您需要了解默认情况下 Data-Pipeline 实际上 运行 如何执行您的导出作业。
当您单击 DDB 控制台上的导出按钮时,它会将您带到 Data-Pipelines 控制台以创建用于导出的管道。
填写模板后,您可以使用
Edit in Architect
功能来更改仅适用于一个 table 的当前模板,而不是 运行ning。在架构师页面上,如果您观察
Activities
部分,您会发现 EmrAcvity 运行 使用以下参数设置 EMR STEP。此 EMR 步骤将 运行 使用您最初在模板上传递的参数导出作业。请注意,它还将RunsOn
EMRclusterforBackup
资源,您可以在资源部分找到这些资源。
s3://dynamodb-emr-#{myDDBRegion}/emr-ddb-storage-handler/2.1.0/emr-ddb-2.1.0.jar,org.apache.hadoop.dynamodb.tools.DynamoDbExport,#{output.directoryPath},#{input.tableName},#{input.readThroughputPercent}
- 要使用相同的 EMR 资源 运行 在其他 DDB table 上导出,您只需单击
Add
创建另一个 EMRActivity 对象,然后在架构师上添加 EMRActivity。在此 activity 上,您可以使用与之前 activity 相同的RunsOn
,并且在 STEP 参数中,您可以手动编辑以包含其他 table 名称及其导出路径 喜欢
s3://dynamodb-emr-#{myDDBRegion}/emr-ddb-storage-handler/2.1.0/emr-ddb-2.1.0.jar,org.apache.hadoop.dynamodb.tools.DynamoDbExport,s3://myexport-bucket/table2/,table2,0.9
- 您可以将其扩展多个 table。
注意:这可以很容易地为多个 table 完成,使用 JSON 文件作为数据管道定义,编辑它以添加更多活动和参数,然后将其导出到 运行 稍后。