如何使用 Spark-streaming 进行实时日志分析? (我附上建筑图片)

How can I do real-time log analysis using Spark-streaming?? (I attach architecture image)

Spark 流应用程序从大量物联网设备实时接收数据。 但它们都是少量数据。 整体流程看起来是这样的 -> Iot -> Kafka(1 个主题/所有数据) -> Spark-streaming(过滤错误日志) -> DB(save) -> Alert screen

有没有什么好的方法可以用spark或者python做实时日志分析?

显然,您可以使用 spark-Kafka 连接器从 Kafka 队列流式传输数据。

此文档提供了一些关于使用 Kafka 进行结构化流式传输的参考 - https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html

从 kafka 获得流数据帧后,您可以应用 spark 的 filter() 函数来过滤传入的数据集。

此外,来自 databricks 的这篇文档对我们如何使用 spark streaming 实现日志分析应用程序提供了一些很好的参考。

https://databricks.gitbooks.io/databricks-spark-reference-applications/content/logs_analyzer/app/index.html

以上可以作为参考!