运行 用于分析 BigQuery 中保存的数据的工具?

Tools for running analysis on data held in BigQuery?

我在 BigQuery 中有大约 100GB 的数据,而且我对使用数据分析工具还很陌生。我想为不同的查询获取大约 3000 个提取,使用一系列 SQL 查询的编程,然后 运行 一些统计分析来比较这些提取的峰度。

现在我的工作流程如下:

其中第二个工作正常,但在本地保存所有 3000 个数据提取(网络超时等)非常缓慢和痛苦。

有更好的方法吗?基本上我想知道是否有某种云工具可以让我快速 运行 调用以获取 3000 次提取,然后 运行 Python 进行峰态分析。

我查看了 https://cloud.google.com/bigquery/third-party-tools,但我不确定其中是否有满足我需要的内容。

两个简单的方法:

1:如果您的问题像您说的那样是网络问题,请使用 google 计算引擎机器在与您的 bigquery 表(美国、欧盟等)相同的区域中进行分析。从 bigquery 获取数据不会出现网络问题,而且速度超快。 该机器只会在您使用它的几分钟内花费您。保存您的机器的快照以随时重用机器设置(快照也有每月费用,但比启动机器要低得多。)

2:使用 Google 云数据实验室(截至 2015 年 12 月的测试版),它支持 bigquery 源,并为您提供进行分析和稍后与他人共享所需的所有工具: https://cloud.google.com/datalab/

来自他们的文档:"Cloud Datalab is built on Jupyter (formerly IPython), which boasts a thriving ecosystem of modules and a robust knowledge base. Cloud Datalab enables analysis of your data on Google BigQuery, Google Compute Engine, and Google Cloud Storage using Python, SQL, and JavaScript (for BigQuery user-defined functions)."

到目前为止,Cloud Datalab 是您的最佳选择
https://cloud.google.com/datalab/
它处于测试阶段,所以可能会有一些惊喜
Datalab 建立在以下 (Jupyter/IPython) 选项之上,完全在云中

另一种选择是Jupyter/IPython笔记本
http://jupyter-notebook-beginner-guide.readthedocs.org/en/latest/

我们的数据科学团队很久以前就开始使用第二个选项并取得了巨大成功,现在正转向 Datalab

对于其余的业务(生产、商务、运营、销售、市场营销等),我们必须构建自己的 workflow/orchestration 工具,因为没有发现足够好的或相关的工具。

你可以看看Cooladata

它允许您将 BQ 表作为外部数据源进行查询。 您可以做的是安排您的查询并将结果导出到 Google 存储,您可以从那里获取,或者使用内置的强大报告工具来回答您的 3000 个查询。 它还将为您提供业务所需的所有 BI 工具。