使用 Databricks 将从 Azure 服务总线接收的消息移动到 Azure DataLake
Moving Messages received from Azure Service Bus to Azure DataLake with Databricks
我找到了几个链接,展示了如何在 Apache Spark 上使用 Databricks 发送和接收消息,包括在前一段时间发布的以下 SO 问题中 Structured Streaming with Azure Service Bus Topics
但是,我正在努力查找有关如何根据收到的消息创建数据框以便将消息移动到 Azure Data Lake 或 SQL DB 的信息。
有没有人遇到任何有用的文档?
请注意:我指的不是 Azure 事件中心
我和我的团队一直在寻找相同的能力,但没有成功。我们最终使用 Azure 函数执行 python 脚本,该脚本利用 pandas 和 pyarrow 将镶木地板写入我们数据湖的原始区域。当我们尝试使用 Spark 读取数据时,这最终导致了问题。
另一种看起来很有前途的方法是使用 azure 函数将消息写入原始区域中的 JSON。然后使用自动加载程序处理新的 JSON 个文件。
https://docs.microsoft.com/en-us/azure/databricks/spark/latest/structured-streaming/auto-loader
微软也有这个建议:
我找到了几个链接,展示了如何在 Apache Spark 上使用 Databricks 发送和接收消息,包括在前一段时间发布的以下 SO 问题中 Structured Streaming with Azure Service Bus Topics
但是,我正在努力查找有关如何根据收到的消息创建数据框以便将消息移动到 Azure Data Lake 或 SQL DB 的信息。
有没有人遇到任何有用的文档?
请注意:我指的不是 Azure 事件中心
我和我的团队一直在寻找相同的能力,但没有成功。我们最终使用 Azure 函数执行 python 脚本,该脚本利用 pandas 和 pyarrow 将镶木地板写入我们数据湖的原始区域。当我们尝试使用 Spark 读取数据时,这最终导致了问题。
另一种看起来很有前途的方法是使用 azure 函数将消息写入原始区域中的 JSON。然后使用自动加载程序处理新的 JSON 个文件。
https://docs.microsoft.com/en-us/azure/databricks/spark/latest/structured-streaming/auto-loader
微软也有这个建议: