在 BigData 环境中在哪里创建暂存数据 table?

Where to create staging data table in BigData environment?

我目前正在使用 Hadoop-2、PIG、HIVE 和 HBASE。 我有一个输入数据。我已经将该数据加载到 HDFS 中。 我想在此环境中创建暂存数据。

我的查询是 -

我应该在哪个 BigData 组件中创建 Staging Table(Pig/HIVE/HBASE) ;这将根据条件输入数据?稍后,我们可能想要 运行 具有复杂逻辑的 MapReduce 作业。

请协助

随心所欲。 Pig 不是一个选项,因为它没有 Metastore。 Hive 如果你想 SQL 点赞查询。 HBase 基于您的访问模式。

当您 运行 在数据之上进行 Hive 查询时,它会转换为 MR。

当您在 Hive 中创建它时,使用 Hive Queries 而不是 MR。如果您使用 MR,则使用 Pig。在数据之上创建 Hive table 不会让您受益。

Hive: 如果您有 OLAP 类型的工作负载并且不需要实时 read/write.

HBase: 如果您有 OLTP 类的工作量。你需要做 realtime/streaming read/write。可以使用 MapReduce 完成一些批处理或 OLAP 处理。使用 Apache Phoenix 可以进行类似 SQL 的查询。

您可以 运行 HIVE 和 HBase 上的 MapReduce 作业。