AWS Glue 能否按行处理记录

Question

我需要处理从一个红移集群到另一行的记录。我们想按行处理，因为我们想以不同的方式处理 failed/invalid 记录。另一个好处是我们希望避免在一个记录失败的情况下进行批量重新处理。那么，想检查 AWS Glue 是否适合吗？如果这不适合任何其他提供行处理功能的工具？

Answer 1

AWS glue 允许您在转换过程中实施自己的 PySpark 脚本。

Pyspark 允许对每一行执行运行的函数。

有很多方法可以做到这一点，例如：

def f_udf(x):
    return (x + 1)
df2 = df.withColumn("result", max_udf(df.col1))

thi 运行s 函数 f_udf 为 df 的每一行生成 df2。

可在此处找到关于此的 AWS Glue 特定文档

Can AWS Glue process records row wise