本地机器上的 Spark Kafka Integration 用于实时 Twitter 流分析有哪些缺点?

What are drawbacks of Spark Kafka Integration on local machine for real time twitter streaming analysis?

我正在使用 Spark-Kafka Integration 来处理我的项目,该项目是在 Twitter 上查找热门话题标签。为此,我使用 Kafka 通过 tweepy Streaming 推送推文,而在消费者方面,我使用 Spark Streaming 进行 DStream 和 RDD 转换...

我的问题是 运行 一段时间内通过 Kafka 进行流处理是否会导致存储问题,因为我 运行 在我的本地机器上同时进行生产者和消费者...如何我可以安全地执行生产者多久(因为我需要它 运行 一段时间以获得正确的趋势计数..)?

还有如果我运行在AWS等云平台上会不会更好?

我同意。当 运行 流媒体服务器时,存储一直是一个难题,aws 有 Amazon MSK,这是一个托管的 Kafka 流媒体服务器,它的优点是你可以集成 s3 进行备份,这比本地存储成本低得多为了持久性,还可以动态配置 EBS 存储

https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-kafka-on-aws/

不清楚您使用的时间 window,或者卡夫卡 运行 的位置。计算超过 10 分钟或一个小时左右的趋势,根本不会占用 Spark 集群上的太多磁盘空间。

Kafka 存储当然需要足够大才能满足您的用例

推文不是很大。过滤掉主题标签只会使它们变小。

注意:Spark 似乎有点矫枉过正,因为您可以使用 Kafka Connect 进行摄取,使用 ksqlDB 进行计算