Google 的 BigQuery 与 Azure 数据湖 U-SQL

Google's BigQuery vs Azure data lake U-SQL

我正在尝试了解 Google 的大查询与 Azure 数据湖 U-SQL 之间的区别或优缺点。哪个更好 ?我已经详尽地搜索了最大的区别是什么,但找不到。

好的,这是两种技术之间的一些根本区别。

数据形状

  1. Google 大查询 - 他们要求你将你的数据运行转化为特定的 像 json、csv 或 Avro 这样的形状。
  2. Data lake - 他们只要求你转储你在 lake store 中的任何东西,然后你可以 运行 在它上面进行 usql 查询。

数据大小

Google 大查询 对文件大小有限制 - https://cloud.google.com/bigquery/loading-data-into-bigquery#quota 尽管它们是相当大的限制

Data Lake - 官方对文件大小没有限制,您实际上可以从 PB 文件开始。

最大的区别在于查询模型,但在此之前必须知道您还可以 运行 Azure 数据湖存储之上的 HBase 工作负载,而 HBase 实际上是 google 大 table,您可以在此处看到许多其他细微差别 http://www.larsgeorge.com/2009/11/hbase-vs-bigtable-comparison.html

google 大查询本身并不是编译查询,而 USQL 是 SQL 类语法与 CLR 功能的组合,USQL 查询首先被编译,然后 运行 在数据存储上,这允许编写自定义函数以与他们的查询一起使用来解析或处理不同形式的数据。 甚至可以使用 Azure 数据湖工具可视化 USQL 查询的执行计划。大查询和 USQL 都非常容易理解和使用。

身份验证

  1. Google 大查询具有标准 API 身份验证 https://cloud.google.com/bigquery/authentication
  2. ADL - 应用程序和用户的身份验证由 Azure AD 控制。

作为大数据平台,两者都需要尊重,但我个人认为 Azure Data lake 是一个更好的实现,因为它允许灵活地与 spark、storm、hive、pig 等开源项目一起工作,而大 table 将您的能力限制在 google 生态系统中。

通过我的 Twitter 用户名@brijrajsingh 与我联系,如果你能在 GIDS Bangalore 拜访一下,我将在 2016 年 4 月 29 日发布关于数据湖的session