有没有Spark Arrow Streaming = Arrow Streaming + Spark Structured Streaming?
Is there Spark Arrow Streaming = Arrow Streaming + Spark Structured Streaming?
目前我们有 spark 结构化流
在 arrow 文档中,我找到了 arrow streaming,我们可以在 Python 中创建流,生成数据,然后使用 StreamReader
在 Java/Scala[= 中使用流11=]
我想知道是否有这两者的集成,我们可以在其中做一些事情,比如在 Python 中生成箭头流,并使用 spark 结构化流来获取流(以分布式方式)?
想象一个场景,想搭建一个好用的Pythonapi但是计算引擎在Java/Scala上,用Kafka/Redis解决不了数据跨语言类型。但是使用箭头目前没有集群支持来访问数据
我从未听说过这样的项目。您所描述的几乎是 PySpark 结构化流式处理,其中您有一个 运行 python 应用程序在一侧与 JVM 上的 Spark 基础设施 运行 对话。
也许不完全是您要找的东西,但 Spark 3.3 将有 mapInArrow
API 调用 - https://github.com/apache/spark/pull/34505
虽然这不适用于流媒体。
目前我们有 spark 结构化流
在 arrow 文档中,我找到了 arrow streaming,我们可以在 Python 中创建流,生成数据,然后使用 StreamReader
在 Java/Scala[= 中使用流11=]
我想知道是否有这两者的集成,我们可以在其中做一些事情,比如在 Python 中生成箭头流,并使用 spark 结构化流来获取流(以分布式方式)?
想象一个场景,想搭建一个好用的Pythonapi但是计算引擎在Java/Scala上,用Kafka/Redis解决不了数据跨语言类型。但是使用箭头目前没有集群支持来访问数据
我从未听说过这样的项目。您所描述的几乎是 PySpark 结构化流式处理,其中您有一个 运行 python 应用程序在一侧与 JVM 上的 Spark 基础设施 运行 对话。
也许不完全是您要找的东西,但 Spark 3.3 将有 mapInArrow
API 调用 - https://github.com/apache/spark/pull/34505
虽然这不适用于流媒体。