Bigtable（或 BigQuery）是日志关联分析的正确平台吗？

Question

我面临着根据以下要求分析不同系统日志文件的挑战：

几百个系统
每天有数百万条不同格式的日志

除了许多其他目标之外，我最大的挑战是对所有当前系统日志以及部分历史日志事件的所有传入日志进行实时关联分析。

目前我们专注于 MongoDB、ElasticSearch、Hadoop 等，以应对这一挑战。

另一方面，我读到了一些关于 Google Bigtable 和 Bigquery 的有趣内容。

所以我的问题是，为了进行这种实时分析，Bigtable and/or Bigquery 是一个值得关注的解决方案吗？

我没有使用这两种产品的经验，所以我希望得到一些提示，看看这些 Google 解决方案是否可以替代我的要求。

THX & BR bdriven

编辑：

too broad. you need to show actual analisis you need to make. bigquery will be much much cheaper that homemade with nosql

我们的目标是开发一个系统，该系统能够根据当前日志事件（或不同日志事件的组合）及其过去对其他系统行为的交互生成警告。

因此我们必须能够对当前事件与大量非结构化历史数据进行快速关联分析。

我知道这个需求描述可能不是最具体的，但我们正处于这个项目的开始阶段。所以我提出这个问题的目的是为我们的下一次团队会议提供一些论据，我们是否应该考虑仔细研究 Bigtable / Bigquery。

Answer 1

我最喜欢的 BigQuery 功能之一是它能够运行关联。

这是我几年前写的与 BigQuery 教程的相关性：http://nbviewer.ipython.org/gist/fhoffa/6459195

例如，要根据航班延误对机场进行排名并找到最相关的机场：

SELECT a.departure_state, b.departure_state, corr(a.avg, b.avg) corr, COUNT(*) c
FROM
(SELECT date, departure_state, AVG(departure_delay) avg , COUNT(*) c
FROM [bigquery-samples:airline_ontime_data.flights]  
GROUP BY 1,2 HAVING c > 5  
) a
JOIN
(SELECT date, departure_state , 
AVG(departure_delay) avg, COUNT(*) c FROM [bigquery-samples:airline_ontime_data.flights] 
GROUP BY 1,2 HAVING c > 5  ) b
ON a.date=b.date
WHERE a.departure_state < b.departure_state
GROUP EACH BY 1, 2
HAVING c > 5
ORDER BY corr DESC;

在接下来的 5 分钟内自己尝试一下！快速入门教程：https://www.reddit.com/r/bigquery/comments/3dg9le/analyzing_50_billion_wikipedia_pageviews_in_5/

Bigtable（或 BigQuery）是日志关联分析的正确平台吗？

Is Bigtable (or BigQuery) the right platform for correlation analysis of logs?

bigtable

google-bigquery

google-cloud-bigtable