是否可以配置clickhouse数据存储为hdfs

Is it possible to configure clickhouse data storage to be hdfs

目前,clickhouse 在

上存储数据

/var/lib/clickhouse

路径,我读过它不支持深度存储。 顺便说一下,它在 config.xml 文件中有任何 hdfs 设置的配置吗?

将 clickhouse datadir 存储到 HDFS 中,这是一个非常糟糕的主意;)

因为 HDFS 与 posix 不兼容的文件系统,Clickhouse 在此部署变体上会非常慢

你可以使用https://github.com/jaykelin/clickhouse-hdfs-loader to load data from HDFS into clickhouse, and in near future https://clickhouse.yandex/docs/en/roadmap/ clickhouse 可能会支持 PARQUET 格式加载数据

clickhouse 有自己的高可用性和集群化解决方案 请阅读 https://clickhouse.yandex/docs/en/operations/table_engines/replication/ and https://clickhouse.yandex/docs/en/operations/table_engines/distributed/

HDFS 引擎允许通过 ClickHouse 管理 HDFS 上的数据,从而提供与 Apache Hadoop 生态系统的集成。此引擎类似于文件和 URL 引擎,但提供 Hadoop 特定的功能。

https://clickhouse.yandex/docs/ru/operations/table_engines/hdfs/

@MajidHajibaba

clickhouse最初是为数据局部性设计的,这意味着你有本地磁盘,数据会尽快从本地磁盘读取

3 年后,S3 和 HDFS 作为具有本地缓存​​的远程数据存储是很好的实现方法

查看https://clickhouse.com/docs/en/engines/table-engines/mergetree-family/mergetree/#table_engine-mergetree-s3了解详情 查看 cache_enabledcache_path 选项

https://clickhouse.com/docs/en/operations/storing-data/#configuring-hdfs