用于归档数据的 Amazon Kinesis Analytics
Amazon Kinesis Analytics for archival data
背景
我发现 Amazon Kinesis Data Analytics 可用于流式传输数据以及 S3 存储桶中的数据。
但是,the Kinesis documentation 的某些部分让我质疑 Amazon Kinesis Analytics 是否可以用于 S3 存储桶中的大量现有数据:
Authoring Application Code
We recommend the following:
In your SQL statement, don't specify a time-based window that is longer than one hour for the following reasons:
Sometimes an application needs to be restarted, either because you updated the application or for Kinesis Data Analytics internal reasons. When it restarts, all data included in the window must be read again from the streaming data source. This takes time before Kinesis Data Analytics can emit output for that window.
Kinesis Data Analytics must maintain everything related to the application's state, including relevant data, for the duration. This consumes significant Kinesis Data Analytics processing units.
问题
Amazon Kinesis Analytics 是否适合这项任务?
Amazon Kinesis Analytics 的主要用例是流数据处理。为此,您将 Amazon Kinesis Analytics 应用程序附加到流数据源。您可以选择包括来自 S3 的参考数据,目前它的大小限制为 1 GB。我们会将数据从 S3 对象加载到 SQL table 中,您可以使用它来丰富传入流。
听起来需要一个更通用的工具来从 S3 查询数据,而不是流数据处理解决方案。我建议查看 Presto 和 Amazon EMR 而不是使用 Amazon Kinesis Analytics。
免责声明:我在 Amazon Kinesis 团队工作。
背景
我发现 Amazon Kinesis Data Analytics 可用于流式传输数据以及 S3 存储桶中的数据。
但是,the Kinesis documentation 的某些部分让我质疑 Amazon Kinesis Analytics 是否可以用于 S3 存储桶中的大量现有数据:
Authoring Application Code
We recommend the following:
In your SQL statement, don't specify a time-based window that is longer than one hour for the following reasons:
Sometimes an application needs to be restarted, either because you updated the application or for Kinesis Data Analytics internal reasons. When it restarts, all data included in the window must be read again from the streaming data source. This takes time before Kinesis Data Analytics can emit output for that window.
Kinesis Data Analytics must maintain everything related to the application's state, including relevant data, for the duration. This consumes significant Kinesis Data Analytics processing units.
问题
Amazon Kinesis Analytics 是否适合这项任务?
Amazon Kinesis Analytics 的主要用例是流数据处理。为此,您将 Amazon Kinesis Analytics 应用程序附加到流数据源。您可以选择包括来自 S3 的参考数据,目前它的大小限制为 1 GB。我们会将数据从 S3 对象加载到 SQL table 中,您可以使用它来丰富传入流。
听起来需要一个更通用的工具来从 S3 查询数据,而不是流数据处理解决方案。我建议查看 Presto 和 Amazon EMR 而不是使用 Amazon Kinesis Analytics。
免责声明:我在 Amazon Kinesis 团队工作。