从 oracle 中获取数据并在 emr 集群中使用 spark 进行处理

Fetch data from oracle and process using spark in emr cluster

oracle
amazon-web-services
amazon-emr
sqoop
apache-spark

我有一个 oracle table 大约有 30 tables。我想将特定时间段内这些 table 的数据转储到 EMR 集群和我对数据的运行配置单元查询中。我想使用 spark 和 AWS EMR 来执行此操作。这将是一项计划作业，需要每 4 小时运行。提取的数据量大约为 100 条记录（每 4 小时）。我如何从 oracle 获取数据并运行 hive 查询数据？

我会加评论，但积分不够，所以我写在这里。

如果我没理解错的话，您想每 4 小时从 Oracle 中获取 +/- 100 行，对吗？如果是这样，为什么需要使用 Spark 或 Hive 来做到这一点？您不能简单地每 4 小时直接在 Oracle 中用这 100 行创建一个视图并直接查询吗？担心的是，如果数据适合您的单台机器并且预计不会快速增长，那么您不需要任何分布式解决方案。

从 oracle 中获取数据并在 emr 集群中使用 spark 进行处理

Fetch data from oracle and process using spark in emr cluster

oracle

amazon-web-services

amazon-emr

sqoop

apache-spark