AWS 数据湖 Dynamodb 与 ElasticSearch
AWS Data Lake Dynamo vs ElasticSearch
我真的很难理解应该如何使用 Dynamo/ElasticSearch 来支持 AWS 数据湖工作(元数据/目录)。似乎您会在 Dynamo 中记录您的 zip 存档的各个 S3 位置,以及您希望在 ES 中搜索的任何其他元数据/属性。如果那是正确的,您将如何同时使用这两者来支持它。我试图找到有关如何将两者正确配对的更多详细信息,但没有成功。其他人拥有的任何信息/文档都会很棒。很有可能我忽略了一些明显的示例/文档。
我的想象是这样的:
- 用户可以在 ES 中搜索元数据/属性,这些元数据/属性将指向匹配的高级 S3 存储桶/分区。
- DynamoDB 中的搜索将针对 ES 结果中的键部分(分区/存储桶)
- 搜索很可能会产生许多单独的对象/键,然后可以对其进行处理、提取等。
我与我们的一位 AWS 代表交谈,他推荐我阅读这篇文章。这是一个很好的起点。 AWS Data Lake。这似乎回答了我以前不清楚的关于组件和方法用户的一些问题。
亮点:
- 实现数据湖的蓝图。结合 S3 / DynamoDB / ES 很常见。
- 实现有很多变体。将 RDS 替换为 ES / DynamoDB,仅使用 ES 等
- 我们很可能会从 RDS 开始来锻炼这个过程,然后转移到 DyanmoDB/ES。
我真的很难理解应该如何使用 Dynamo/ElasticSearch 来支持 AWS 数据湖工作(元数据/目录)。似乎您会在 Dynamo 中记录您的 zip 存档的各个 S3 位置,以及您希望在 ES 中搜索的任何其他元数据/属性。如果那是正确的,您将如何同时使用这两者来支持它。我试图找到有关如何将两者正确配对的更多详细信息,但没有成功。其他人拥有的任何信息/文档都会很棒。很有可能我忽略了一些明显的示例/文档。
我的想象是这样的:
- 用户可以在 ES 中搜索元数据/属性,这些元数据/属性将指向匹配的高级 S3 存储桶/分区。
- DynamoDB 中的搜索将针对 ES 结果中的键部分(分区/存储桶)
- 搜索很可能会产生许多单独的对象/键,然后可以对其进行处理、提取等。
我与我们的一位 AWS 代表交谈,他推荐我阅读这篇文章。这是一个很好的起点。 AWS Data Lake。这似乎回答了我以前不清楚的关于组件和方法用户的一些问题。
亮点:
- 实现数据湖的蓝图。结合 S3 / DynamoDB / ES 很常见。
- 实现有很多变体。将 RDS 替换为 ES / DynamoDB,仅使用 ES 等
- 我们很可能会从 RDS 开始来锻炼这个过程,然后转移到 DyanmoDB/ES。