既然 QuickSight 可以直接查询 S3,那么什么时候需要使用 Athena 作为 QuickSight 的数据源呢?

Since QuickSight can directly query S3, when would we need to use Athena as data source for QuickSight?

可能是我遗漏了什么,但我无法理解如果我将 Athena 与 QuickSight 连接而不是将 QuickSight 直接与 S3 连接,我将获得什么好处。请帮助我理解这一点。

Amazon S3 是一种对象存储,用于存储和检索任意数量的数据。基本上,它有一些 原始数据或非结构化数据 (在某些文件格式 .csv.tsv 中)。

Amazon Athena uses a managed Data Catalog to store information and schemas about the databases and tables that you create for your data stored in Amazon S3. So, Athena knows about the data and its structure (i.e. some schema) in S3.

另外,QuickSight可以直接连接到Athena数据库,查询数据进行分析。当您连接到 Athena 数据库时,您最有可能处理 结构化或半结构化数据 .

当数据源是 Amazon Athena 时,不需要 Amazon S3 清单文件

直接连接到 S3 时的一些限制:-

No file specified in the manifest can exceed 1 GB in size, the total size of the all the files specified can't exceed 10 GB, and the total number of files specified can't exceed 1000.

当您使用 Amazon Athena 数据创建数据集时,上述限制不可用。

使用 Amazon Athena 数据创建数据集时的另一个功能:-

You can directly analyze the data without loading or load into SPICE and analyze the data.

结论:-

如果您还没有对 S3 文件进行任何操作,您可以直接使用 QuickSight,将 S3 用作数据集。

如果您已经将 S3 数据加载到 Athena,那么您可以使用 Athena 作为 QuickSight 的数据集。

通过使用 Athena 或任何其他数据源,您将获得一些好处并且可以克服上面提到的一些限制(即文件大小)。