Datastax企业版如何集成kafka和spark streaming?
How to integrate kafka and spark streaming in Datastax Enterprise Edition?
我在apache网站上下载后集成了kafka和spark streaming。但是,我想将 Datastax 用于我的大数据解决方案,我看到您可以轻松集成 Cassandra 和 Spark。
但是我在最新版本的Datastax enterprise中看不到任何kafka模块。这里如何集成kafka和spark streaming?
我想做的基本上是:
- 启动必要的代理和服务器
- 启动kafka生产者
- 启动kafka消费者
- 将 spark streaming 连接到 kafka broker 并从那里接收消息
然而,在快速 google 搜索之后,我在任何地方都看不到 kafka 已与 datastax enterprise 合并。
我怎样才能做到这一点?我真的是 datastax 和 kafka 的新手,所以我需要一些建议。语言偏好 - Python。
谢谢!
好问题。 DSE 不包含开箱即用的 Kafka,您必须自己设置 kafka,然后设置您的 spark streaming 作业以从 kafka 读取。由于 DSE 确实捆绑了 spark,因此请使用 DSE Spark 来 运行 您的 spark 流作业。
您可以使用直接的 kafka API 或 kafka 接收器,有关权衡的更多详细信息 here。 TL;DR direct api 不需要 WAL 或 HA zookeeper。
以下是 Cary Bourgeois 提供的如何配置 Kafka 以使用 DSE 的示例:
https://github.com/CaryBourgeois/DSE-Spark-Streaming/tree/master
我在apache网站上下载后集成了kafka和spark streaming。但是,我想将 Datastax 用于我的大数据解决方案,我看到您可以轻松集成 Cassandra 和 Spark。
但是我在最新版本的Datastax enterprise中看不到任何kafka模块。这里如何集成kafka和spark streaming?
我想做的基本上是:
- 启动必要的代理和服务器
- 启动kafka生产者
- 启动kafka消费者
- 将 spark streaming 连接到 kafka broker 并从那里接收消息
然而,在快速 google 搜索之后,我在任何地方都看不到 kafka 已与 datastax enterprise 合并。
我怎样才能做到这一点?我真的是 datastax 和 kafka 的新手,所以我需要一些建议。语言偏好 - Python。 谢谢!
好问题。 DSE 不包含开箱即用的 Kafka,您必须自己设置 kafka,然后设置您的 spark streaming 作业以从 kafka 读取。由于 DSE 确实捆绑了 spark,因此请使用 DSE Spark 来 运行 您的 spark 流作业。
您可以使用直接的 kafka API 或 kafka 接收器,有关权衡的更多详细信息 here。 TL;DR direct api 不需要 WAL 或 HA zookeeper。
以下是 Cary Bourgeois 提供的如何配置 Kafka 以使用 DSE 的示例:
https://github.com/CaryBourgeois/DSE-Spark-Streaming/tree/master