如何在 pyspark databricks 中将用户定义的函数应用于读取流数据

How to apply user defined function over read stream data in pyspark data bricks

我有以下代码将事件中心数据读入数据块。

问题: 在 read_df 数据框中,我有加密的主体 json。我想应用一个用户定义的函数,该函数 returns 具有已解码正文值的数据场。假设函数名称是 decode(encoded_body_value)。如何将它应用于读取的流数据,以便此操作也成为流式处理。意味着当事件到达时,它应该触发解码并使用 body 的解码值创建数据帧。

由于 UDF 在行级别上工作,因此它也适用于流式数据帧。只是做:

read_df.select(decode(col("value")).alias("decoded")