在不从 S3 加载到 DB 的情况下获取计数

Getting counts without loading from S3 to DB

当在线应用程序根据查询参数发出请求时,我必须return 计数。为了实现这一点,我们有将大量数据加载到数据库中的管道,然后当收到请求时,我们查询数据库和 return 计数。

由于数据存在于 S3 上,有没有办法在我们收到请求时直接在 S3 上查询数据并且 return 计数而不是编写整个基础架构?

我可以为此使用 Hive 吗?

看看Amazon Athena:它提供了一种直接在 S3 上查询数据的简单方法。
您只需将数据指向 S3,定义所需的模式并使用标准 SQL you are good to go.