AWS 数据湖摄取
AWS Data Lake Ingest
您是否需要使用 glue 摄取 excel 和其他专有格式,或者允许 glue 爬行您的 s3 存储桶以在您的数据湖中使用这些数据格式?
我已经阅读了“Data Lake Foundation on the AWS Cloud”文档,但仍对如何将数据输入湖中感到摸不着头脑。我有一个数据提供者,在他们的系统上有大量数据存储为 excel 和访问文件。
根据流程,他们会将数据上传到提交的 s3 存储桶中,这将引发一系列操作,但没有将数据转换为可与其他工具一起使用的格式。
使用这些文件是否需要对存储桶中提交的数据使用胶水,或者是否有其他方法可以让其他工具(例如 Athena 和红移光谱)使用这些数据?
感谢您就此主题提供的任何信息。
-圭多
我没看到可以将 excel 数据直接带到数据湖。在加载到 Data Lake 之前,您可能需要转换为 CSV/TSV/Json 或其他格式。
Redshift Spectrum 支持的格式:
http://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html -- 我现在还是没看到 Excel。
Athena 支持的文件格式:
http://docs.aws.amazon.com/athena/latest/ug/supported-formats.html -- 我没看到 Excel 这里也不支持。
您需要将文件上传到 S3 以使用 Athena 或 Redshift Spectrum 甚至 Redshift 存储本身。
上传文件到 S3:
如果您有更大的文件,您需要使用S3 分段上传来更快地上传。如果您想要更快的速度,您需要使用 S3 加速器来上传您的文件。
使用 Athena 查询大数据:
您可以使用 Athena 从 S3 位置创建外部表。创建外部表后,使用 Athena Sql 参考查询您的数据。
http://docs.aws.amazon.com/athena/latest/ug/language-reference.html
使用 Redshift Spectrum 查询大数据:
与 Athena 类似,您可以使用 Redshift 创建外部表。开始查询这些表并在 Redshift 上获取结果。
Redshift有很多商业工具,我用SQLWorkbench。它是免费的开源软件,坚如磐石,由 AWS 提供支持。
SQL WorkBench: http://www.sql-workbench.net/
正在将您的 WorkBench 连接到 Redshift:http://docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html
正在将数据复制到 Redshift:
此外,如果您想将数据存储到 Redshift,您可以使用复制命令从 S3 中提取数据并将其加载到 Redshift。
复制命令示例:
http://docs.aws.amazon.com/redshift/latest/dg/r_COPY_command_examples.html
Redshift 集群大小和节点数:
在创建 Redshift 集群之前,检查所需的大小和所需的节点数。更多节点获得并行查询 运行。一个更重要的因素是数据的分布情况。 (分布键和排序键)
我对 Redshift 有很好的体验,可能需要一些时间才能加快速度。
希望对您有所帮助。
您是否需要使用 glue 摄取 excel 和其他专有格式,或者允许 glue 爬行您的 s3 存储桶以在您的数据湖中使用这些数据格式?
我已经阅读了“Data Lake Foundation on the AWS Cloud”文档,但仍对如何将数据输入湖中感到摸不着头脑。我有一个数据提供者,在他们的系统上有大量数据存储为 excel 和访问文件。
根据流程,他们会将数据上传到提交的 s3 存储桶中,这将引发一系列操作,但没有将数据转换为可与其他工具一起使用的格式。
使用这些文件是否需要对存储桶中提交的数据使用胶水,或者是否有其他方法可以让其他工具(例如 Athena 和红移光谱)使用这些数据?
感谢您就此主题提供的任何信息。
-圭多
我没看到可以将 excel 数据直接带到数据湖。在加载到 Data Lake 之前,您可能需要转换为 CSV/TSV/Json 或其他格式。
Redshift Spectrum 支持的格式:
http://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html -- 我现在还是没看到 Excel。
Athena 支持的文件格式:
http://docs.aws.amazon.com/athena/latest/ug/supported-formats.html -- 我没看到 Excel 这里也不支持。
您需要将文件上传到 S3 以使用 Athena 或 Redshift Spectrum 甚至 Redshift 存储本身。
上传文件到 S3:
如果您有更大的文件,您需要使用S3 分段上传来更快地上传。如果您想要更快的速度,您需要使用 S3 加速器来上传您的文件。
使用 Athena 查询大数据:
您可以使用 Athena 从 S3 位置创建外部表。创建外部表后,使用 Athena Sql 参考查询您的数据。
http://docs.aws.amazon.com/athena/latest/ug/language-reference.html
使用 Redshift Spectrum 查询大数据:
与 Athena 类似,您可以使用 Redshift 创建外部表。开始查询这些表并在 Redshift 上获取结果。
Redshift有很多商业工具,我用SQLWorkbench。它是免费的开源软件,坚如磐石,由 AWS 提供支持。
SQL WorkBench: http://www.sql-workbench.net/
正在将您的 WorkBench 连接到 Redshift:http://docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html
正在将数据复制到 Redshift:
此外,如果您想将数据存储到 Redshift,您可以使用复制命令从 S3 中提取数据并将其加载到 Redshift。
复制命令示例:
http://docs.aws.amazon.com/redshift/latest/dg/r_COPY_command_examples.html
Redshift 集群大小和节点数:
在创建 Redshift 集群之前,检查所需的大小和所需的节点数。更多节点获得并行查询 运行。一个更重要的因素是数据的分布情况。 (分布键和排序键)
我对 Redshift 有很好的体验,可能需要一些时间才能加快速度。
希望对您有所帮助。