Spark 结构化流中的外部连接
Outer Joins in Spark Structured Streaming
有没有办法在 Spark Structured Streaming 中执行 outer_join
(特别是左外连接)?我注意到这个 JIRA #22053 可以为流式数据集启用内部连接(而且效果很好!)。我想知道 outer_join
是否也有类似的东西。
我尝试使用来自 JIRA 的相同逻辑进行外部连接,但未能获得正确的输出。谢谢!
Apache 2.3.0 将支持流-流连接。以下是 2.3.0 RC2 的文档:https://dist.apache.org/repos/dist/dev/spark/v2.3.0-rc2-docs/_site/structured-streaming-programming-guide.html#stream-stream-joins
我能够使流-流内部连接和外部连接正常工作。这是我的一些示例代码。希望对您有所帮助!
流-流连接(JIRA Spark-22053 & JIRA Spark-22136):
streamA.join(streamB, expr("streamA_ID = streamB_ID AND timeA BETWEEN timeB - INTERVAL 15 minutes and timeB"), joinType="{joinType}")
{joinType} 可以是 "inner"、"leftOuter" 或 "rightOuter"。
您可以在随 Spark 2.3 发布的文章中找到更多相关信息:https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#stream-stream-joins
有没有办法在 Spark Structured Streaming 中执行 outer_join
(特别是左外连接)?我注意到这个 JIRA #22053 可以为流式数据集启用内部连接(而且效果很好!)。我想知道 outer_join
是否也有类似的东西。
我尝试使用来自 JIRA 的相同逻辑进行外部连接,但未能获得正确的输出。谢谢!
Apache 2.3.0 将支持流-流连接。以下是 2.3.0 RC2 的文档:https://dist.apache.org/repos/dist/dev/spark/v2.3.0-rc2-docs/_site/structured-streaming-programming-guide.html#stream-stream-joins
我能够使流-流内部连接和外部连接正常工作。这是我的一些示例代码。希望对您有所帮助!
流-流连接(JIRA Spark-22053 & JIRA Spark-22136):
streamA.join(streamB, expr("streamA_ID = streamB_ID AND timeA BETWEEN timeB - INTERVAL 15 minutes and timeB"), joinType="{joinType}")
{joinType} 可以是 "inner"、"leftOuter" 或 "rightOuter"。
您可以在随 Spark 2.3 发布的文章中找到更多相关信息:https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#stream-stream-joins