哪个是最好的免费数据仓库产品

Which is the best free data warehouse products

我正在开发一个包含大量 olap 工作的系统。根据我的研究,基于列的数据仓库是最好的选择。但是我很困惑如何选择一个好的数据仓库产品。

  1. 我看到的数据仓库对比文章都是2012年以前的,好像很少有文章。数据仓库是否过时? Hadoop HBase 比较好?

  2. 据我了解,InfiniDB是一款高性能的开源数据仓库产品,但是已经2年没有维护了https://github.com/infinidb/infinidb。而且关于 InfiniDB 的文档很少。 InfiniDB被开发者充实了吗?

  3. 目前最好的数据仓库产品是什么?

  4. 如何将存储在 Mysql 数据库中的业务数据增量移动到数据仓库?

感谢您的回答!

  1. 数据仓库仍然是一个热门话题,HBase 不是最快的,而是一个非常知名和兼容的(许多应用程序建立在它之上)

  2. 几年前,我开始了寻找一个好的列存储的旅程,最终选择了 InfiniDB,因为它很容易从普通 mysql 迁移。这是一个不错的软件,但它仍然存在错误,所以我不能完全推荐它在生产中使用。 (并非没有第二个故障转移实例)。 然而,MariaDB 已经采用了 InfiniDB 技术并将其移植到他们的 MariaDB 数据库服务器上。这个名为 MariaDB Columnstore[1] 的新产品已经推出,带有测试版本。他们已经付出了很多努力,所以我认为ColumnStore将在未来两年内成为MariaDB的主要产品。

  3. 我无法回答。我仍在使用 InfiniDB 并帮助其他人完成他们的项目。

  4. 这完全取决于你的数据结构和用法。

InfiniDB 非常擅长查询,(在我的测试中)它的性能比 impala 高 ~8%,但是,虽然 infinidb 支持 INSERT、UPDATE、DELETE 和事务,但它在事务性工作负载上并不出色。即只是将社区驱动的网站移动到 infinidb,在那里访问者总是操纵数据将不会很好地工作。一个 10000 行的插入将运行良好,10000 个 1 行的插入将杀死它。

我们为我们的客户部署了 Infinidb,以 'aid' 常规 mariadb 安装的查询性能 - 我们创建了一个工具,可以将 MariaDB 数据库 table 导入和更新到 InfiniDB 中,查询速度更快。对 table 的操作仍在 MairaDB 中完成,更改会以 30 秒的延迟批量导入到 InfiniDB 中。由于 original 和 infinidb table 具有相同的结构并且可以使用 api mysql 访问,我们只需切换数据库连接并进行超快速 SELECT 查询。这对我们的用例很有效。

我们还从头开始构建了新的 statistics/analytics 应用程序以使用 infinidb 并替换旧的基于 MySQL 的系统,该系统也运行良好且超出任何性能预期。 (我们现在拥有 mariadb 中数据的 15 倍,而且它更易于维护且查询速度更快)。

[1] https://mariadb.com/products/mariadb-columnstore

我想试试 Splice Machine(开源)。它将数据存储在HBase上,将提供仓库提供的核心数据管理功能(Primary Keys、Constraints、Foreign Keys等)