Continuous Views 能否有效地重新初始化?

Can Continuous Views be reinitialized efficiently?

我是 PipelineDB 的新手,甚至在 运行 时还没有体验过(安装待定...)。但是我正在阅读文档并且完全感兴趣。

显然,PipelineDB 能够采用基于集合的查询表示并将它们机械地转换为增量表示,以便有效地处理增量流,并将存储限制作为连续视图输出的函数。

是否也支持运行基于集合的查询作为基于集合的查询来启动连续视图?在我看来,在创建连续视图时,初始数据将以这种传统方式计算。此外,由于连续视图可以被 t运行 分类,它们是否可以重新填充(从仍然可用的源表)而不拆除它必须允许 drop/create 的任何依赖对象?

在我看来,这个特性在很多实际场景中都是至关重要的。一个简单的例子是偶尔刷新以重置舍入误差的漂移,比如分数平均值。

另一个例子是,如果 PipelineDB 本身发现并修复了导致数据错误的错误。软件打补丁后,根据数据仍然可用的查询应该重新运行.

无法以这种方式重建完全基于没有永久存储的事件流的连续视图。不确定是否只有部分连接源是临时的。

我没有在文档中看到这些主题。你能解释一下这些是不是问题吗?

谢谢!

来自 PipelineDB 的 Jeff。

您问题的主要答案包含在 PipelineDB 技术文档的 introduction section 中:

"PipelineDB can dramatically reduce the amount of information that needs to be persisted to disk because only the output of continuous queries is stored. Raw data is discarded once it has been read by the continuous queries that need to read it."

虽然连续视图只存储连续查询的输出,但几乎所有使用 PipelineDB 的人都将他们的原始数据存储在像 S3 这样便宜的地方。 PipelineDB 旨在成为实时分析层,为实时报告应用程序和实时监控和警报系统等提供支持,几乎总是与其他系统一起用于数据基础架构。

如果您对 PipelineDB 感兴趣,您可能还想查看我们最近推出的名为 Stride 的新实时分析 API 产品。 Stride API 为开发人员提供了连续 SQL 查询、集成存储、窗口化查询和实时 webhook 等其他功能的好处,所有这些都无需管理任何底层数据基础设施,全部通过简单的 HTTP API.

如果您有任何其他技术问题,您可以随时在我们的 gitter 聊天频道中找到我们的开源用户和开发团队。