用于 Azure Blob 存储的 Kafka 连接器
Kafka Connector for Azure Blob Storage
我需要将推送到 Kafka 的消息存储在深层存储中。我们正在使用 Azure 云服务,所以我认为 Azure Blob 存储可能是更好的选择。我想使用 Kafka Connect 的接收器连接器 API 将数据推送到 Azure Blob。 Kafka 文档主要建议 HDFS 导出数据,但是,在那种情况下,我需要一个 Linux VM 运行 Hadoop,我想这会很昂贵。我的问题是 Azure Blob 存储是存储 JSON 对象的合适选择,构建自定义接收器连接器是这种情况下的合理解决方案吗?
自定义接收器连接器绝对有效。 Kafka Connect 的设计绝对让您可以插入连接器。事实上,连接器开发是完全联合的。 Confluent 的 JDBC 和 HDFS 连接器首先被实现仅仅是因为这两个用例的流行,但还有更多(我们保留了我们知道的连接器列表 here.
关于 Azure blob 存储是否合适,您提到 JSON 个对象。我认为您唯一要考虑的是对象的大小以及 Azure 存储是否能够很好地处理对象的大小和数量。我不确定 Azure 存储的特性,但在许多其他对象存储系统中,您可能需要将许多对象聚合到一个 blob 中以获得大量对象的良好性能(即您可能需要一种支持许多的文件格式 JSON 个对象)。
如果现在有人碰到这个问题,你应该知道现在有一个 kafka connect sink for azure blob storage
我需要将推送到 Kafka 的消息存储在深层存储中。我们正在使用 Azure 云服务,所以我认为 Azure Blob 存储可能是更好的选择。我想使用 Kafka Connect 的接收器连接器 API 将数据推送到 Azure Blob。 Kafka 文档主要建议 HDFS 导出数据,但是,在那种情况下,我需要一个 Linux VM 运行 Hadoop,我想这会很昂贵。我的问题是 Azure Blob 存储是存储 JSON 对象的合适选择,构建自定义接收器连接器是这种情况下的合理解决方案吗?
自定义接收器连接器绝对有效。 Kafka Connect 的设计绝对让您可以插入连接器。事实上,连接器开发是完全联合的。 Confluent 的 JDBC 和 HDFS 连接器首先被实现仅仅是因为这两个用例的流行,但还有更多(我们保留了我们知道的连接器列表 here.
关于 Azure blob 存储是否合适,您提到 JSON 个对象。我认为您唯一要考虑的是对象的大小以及 Azure 存储是否能够很好地处理对象的大小和数量。我不确定 Azure 存储的特性,但在许多其他对象存储系统中,您可能需要将许多对象聚合到一个 blob 中以获得大量对象的良好性能(即您可能需要一种支持许多的文件格式 JSON 个对象)。
如果现在有人碰到这个问题,你应该知道现在有一个 kafka connect sink for azure blob storage