如何将日志数据写入 AWS Glue 中的文件？

Question

我正在将 AWS Glue 与 pyspark 结合使用，因为我的 code.I 在 AWS 中启用了连续日志 Glue.I 我不确定连续日志将在哪里存储日志数据。我正在使用下面的代码，

logger = logging.getLogger('My-code')
logger.setLevel(logging.INFO)
logger.info("Hello")

如何将此数据（即 logger.info("Hello")）重定向到文件中？

Answer 1

启用持续监控后，您可以在 cloudwatch 中查看作业的完整日志。

要查看日志，您需要为胶水作业启用 cloudwatch，然后您可以查看所有日志并启用这些作业日志的保留。

如果您希望粘合作业将日志直接生成到 s3，则不能使用文件协议或记录器包来完成，而是可以利用有点老套的 rdd 方法。

创建一个包含所需日志消息的列表，最后使用 parallelize 将该列表转换为 rdd，然后将该 rdd 保存到 s3 路径。

但是更推荐使用cloudwatch来获取日志。

How do i write log data into file in AWS Glue?