我如何将 Amazon Glacier / S3 与 hadoop map reduce / spark 结合起来?
How can I couple Amazon Glacier / S3 with hadoop map reduce / spark?
我需要使用 Hadoop / EMR 处理存储在 Amazon S3 和 Amazon Glacier 中的数据,并将输出数据保存在 RDBMS 中,例如。垂直
我完全是大数据的菜鸟。我只看过一些关于 map reduce 和 sparx 的在线课程和 ppts。并创建了一些用于学习目的的虚拟地图减少代码。
到目前为止,我只有一些命令可以让我将数据从 S3 导入 Amazon EMR 中的 HDFC,并在处理后将它们存储在 HDFS 文件中。
所以这是我的问题:
是否真的必须在执行 map reduce 之前先将数据从 S3 同步到 HDFC,或者是否有直接使用 S3 的方法。`
如何让 hadoop 访问 Amazon Glacier 数据`
最后,如何将输出存储到数据库。`
欢迎任何建议/参考。
EMR 集群可以read/write to/from S3,所以不需要复制数据到集群。 S3 有一个作为 Hadoop 文件系统的实现,因此它在很大程度上可以被视为与 HDFS 相同。
据我所知,您的 MR/Spark 作业无法直接从 Glacier 访问数据,必须首先从 Glacier 下载数据,这本身就是一个漫长的过程。
查看 Sqoop 在 HDFS 和 DB 之间传输数据
我需要使用 Hadoop / EMR 处理存储在 Amazon S3 和 Amazon Glacier 中的数据,并将输出数据保存在 RDBMS 中,例如。垂直
我完全是大数据的菜鸟。我只看过一些关于 map reduce 和 sparx 的在线课程和 ppts。并创建了一些用于学习目的的虚拟地图减少代码。
到目前为止,我只有一些命令可以让我将数据从 S3 导入 Amazon EMR 中的 HDFC,并在处理后将它们存储在 HDFS 文件中。
所以这是我的问题:
是否真的必须在执行 map reduce 之前先将数据从 S3 同步到 HDFC,或者是否有直接使用 S3 的方法。`
如何让 hadoop 访问 Amazon Glacier 数据`
最后,如何将输出存储到数据库。`
欢迎任何建议/参考。
EMR 集群可以read/write to/from S3,所以不需要复制数据到集群。 S3 有一个作为 Hadoop 文件系统的实现,因此它在很大程度上可以被视为与 HDFS 相同。
据我所知,您的 MR/Spark 作业无法直接从 Glacier 访问数据,必须首先从 Glacier 下载数据,这本身就是一个漫长的过程。
查看 Sqoop 在 HDFS 和 DB 之间传输数据