如何使用 Spark-streaming 进行实时日志分析? (我附上建筑图片)
How can I do real-time log analysis using Spark-streaming?? (I attach architecture image)
Spark 流应用程序从大量物联网设备实时接收数据。
但它们都是少量数据。
整体流程看起来是这样的 -> Iot -> Kafka(1 个主题/所有数据) -> Spark-streaming(过滤错误日志) -> DB(save) -> Alert screen
有没有什么好的方法可以用spark或者python做实时日志分析?
显然,您可以使用 spark-Kafka 连接器从 Kafka 队列流式传输数据。
此文档提供了一些关于使用 Kafka 进行结构化流式传输的参考 - https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html
从 kafka 获得流数据帧后,您可以应用 spark 的 filter() 函数来过滤传入的数据集。
此外,来自 databricks 的这篇文档对我们如何使用 spark streaming 实现日志分析应用程序提供了一些很好的参考。
以上可以作为参考!
Spark 流应用程序从大量物联网设备实时接收数据。 但它们都是少量数据。 整体流程看起来是这样的 -> Iot -> Kafka(1 个主题/所有数据) -> Spark-streaming(过滤错误日志) -> DB(save) -> Alert screen
有没有什么好的方法可以用spark或者python做实时日志分析?
显然,您可以使用 spark-Kafka 连接器从 Kafka 队列流式传输数据。
此文档提供了一些关于使用 Kafka 进行结构化流式传输的参考 - https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html
从 kafka 获得流数据帧后,您可以应用 spark 的 filter() 函数来过滤传入的数据集。
此外,来自 databricks 的这篇文档对我们如何使用 spark streaming 实现日志分析应用程序提供了一些很好的参考。
以上可以作为参考!