用于 Apache Hadoop 的 emr-dynamodb-connector

emr-dynamodb-connector for Apache Hadoop

我有一个 EMR 并打算在 dynamo DB 上执行 CRUD 操作作为我的 Reducer 的一部分。

请注意,我不使用 Hive 或 Spark,而是使用 Apache Hadoop。是否有关于如何从我的 EMR 连接到 Dynamo DB 的文档?

emr-dynamodb-connector 是开源库,包括 Hadoop 类,如 DynamoDBInputFormatDefaultDynamoDBRecordReader,用于从 DynamoDB 读取数据(使用并行扫描),读取速率控制 & DynamoDBOutputFormat DefaultDynamoDBRecordWriter 用于写入(使用 BatchWrites API)到具有写入速率控制的 DynamoDB 以避免节流。

我认为除了这个开源库的 README 之外,没有更多关于此文档的 AWS 文档。

所有 EMR 集群都应该有这个库的 pre-build 包(emr-dynamodb-tools 除外)通常 @ /usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar 并包含在 EMR Hadoop 的类路径中。因此,您可以通过设置所需的配置(包括 DynamoDB config's) using Job 配置

,在您的 MR 应用程序上使用此 JAR 中的 Hadoop InputFormat 和 OutputFormat 实现