从 oracle 中获取数据并在 emr 集群中使用 spark 进行处理

Fetch data from oracle and process using spark in emr cluster

我有一个 oracle table 大约有 30 tables。我想将特定时间段内这些 table 的数据转储到 EMR 集群和我对数据的 运行 配置单元查询中。我想使用 spark 和 AWS EMR 来执行此操作。这将是一项计划作业,需要每 4 小时 运行。提取的数据量大约为 100 条记录(每 4 小时)。我如何从 oracle 获取数据并 运行 hive 查询数据?

我会加评论,但积分不够,所以我写在这里。

如果我没理解错的话,您想每 4 小时从 Oracle 中获取 +/- 100 行,对吗?如果是这样,为什么需要使用 Spark 或 Hive 来做到这一点?您不能简单地每 4 小时直接在 Oracle 中用这 100 行创建一个视图并直接查询吗?担心的是,如果数据适合您的单台机器并且预计不会快速增长,那么您不需要任何分布式解决方案。