将关系数据存储在 hadoop 中以供分析

Storing relational data in hadoop for analysis purpose

我已经阅读了很多关于 hadoop 集群和将我们的关系数据存储到 hadoop 中的不同选项的文章,因此我们可以为我们的关系数据和非关系数据建立一个集中的数据集群以用于分析目的。 但是随着我阅读的更多,它变得更加复杂。 我不知道将我的关系数据转换为 hadoop 的最佳方式是什么。

我在想我可以将每个 table 存储在 Hive 中,然后使用 SPARK SQL 来执行查询。我不知道这是不是最好的选择? 谁能帮我解决这个问题?

如果您打算将 hadoop 用于 OLAP 目的,那么您会发现它是正确的选择。如今,数据湖在企业中比数据仓库更受欢迎,将数据集中在数据分析的地方。

要更具体地回答您转换关系数据的问题,您可以使用以下工具,

  1. Hive:最流行的Hadoop数据仓库工具,其类似于SQL类型的分析语言。虽然查询在分析数据时有一些延迟,但这是因为数据处理在磁盘上。
  2. HBase:Hadoop中随机实时访问数据,其工作原理是Key-value对数据。并且无法进行连接操作。

    1. SparkSQL:现在 SparkSQL 在数据处理方面更受欢迎,因为所有数据都在 hadoop 集群的内存中处理,这就是为什么它与配置单元和查询延迟相比更快(以秒为单位)。

还有其他工具也可以分析半结构化、非结构化和流数据 Hadoop。这个用例在未来会很快出现。因此,从更可持续的解决方案的角度来看,Hadoop 是更好的解决方案。