用于 Apache Hadoop 的 emr-dynamodb-connector

emr-dynamodb-connector for Apache Hadoop

我有一个 EMR 并打算在 dynamo DB 上执行 CRUD 操作作为我的 Reducer 的一部分。

请注意，我不使用 Hive 或 Spark，而是使用 Apache Hadoop。是否有关于如何从我的 EMR 连接到 Dynamo DB 的文档？

emr-dynamodb-connector 是开源库，包括 Hadoop 类，如 DynamoDBInputFormat，DefaultDynamoDBRecordReader，用于从 DynamoDB 读取数据（使用并行扫描），读取速率控制 & DynamoDBOutputFormat DefaultDynamoDBRecordWriter 用于写入（使用 BatchWrites API）到具有写入速率控制的 DynamoDB 以避免节流。

我认为除了这个开源库的 README 之外，没有更多关于此文档的 AWS 文档。

所有 EMR 集群都应该有这个库的 pre-build 包（emr-dynamodb-tools 除外）通常 @ /usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar 并包含在 EMR Hadoop 的类路径中。因此，您可以通过设置所需的配置（包括 DynamoDB config's) using Job 配置

，在您的 MR 应用程序上使用此 JAR 中的 Hadoop InputFormat 和 OutputFormat 实现

用于 Apache Hadoop 的 emr-dynamodb-connector

emr-dynamodb-connector for Apache Hadoop

amazon-dynamodb

amazon-emr