Flink 以 Ceph 作为持久化存储

Flink with Ceph as the persistent storage

Flink 文档建议 Ceph 可以用作状态的持久存储。 https://ci.apache.org/projects/flink/flink-docs-release-1.3/dev/stream/checkpointing.html

考虑到Ceph是事务型数据库,不会对Flink的性能造成不利影响吗?

Ceph 将自己描述为 "unified, distributed storage system" 并提供网络文件系统 API。因此,它应该与 Flink 的状态后端无缝协作,将检查点持久保存到远程文件系统。

我不知道有人使用 Ceph(HDFS 和 S3 更常用),也没有关于性能的信息。但是需要注意的是,Flink 可以异步写入检查点,因此存储系统的性能不会影响 Flink 应用程序的处理速度。但是,它可能会限制采取检查点的时间间隔。

更新: (2018 年 2 月)我注意到有多个用户在 Flink 的用户邮件列表中报告他们正在使用 Ceph with Flink。

更新二: Flink 在 S3 协议下运行良好,而且 (Presto & Hadoop) Flink 的 S3 文件系统插件在 S3 协议下运行良好。