如何将日志数据写入 AWS Glue 中的文件?
How do i write log data into file in AWS Glue?
我正在将 AWS Glue 与 pyspark 结合使用,因为我的 code.I 在 AWS 中启用了连续日志 Glue.I 我不确定连续日志将在哪里存储日志数据。
我正在使用下面的代码,
logger = logging.getLogger('My-code')
logger.setLevel(logging.INFO)
logger.info("Hello")
如何将此数据(即 logger.info("Hello"))重定向到文件中?
启用持续监控后,您可以在 cloudwatch 中查看作业的完整日志。
要查看日志,您需要为胶水作业启用 cloudwatch,然后您可以查看所有日志并启用这些作业日志的保留。
如果您希望粘合作业将日志直接生成到 s3,则不能使用文件协议或记录器包来完成,而是可以利用有点老套的 rdd 方法。
创建一个包含所需日志消息的列表,最后使用 parallelize
将该列表转换为 rdd,然后将该 rdd 保存到 s3 路径。
但是更推荐使用cloudwatch来获取日志。
我正在将 AWS Glue 与 pyspark 结合使用,因为我的 code.I 在 AWS 中启用了连续日志 Glue.I 我不确定连续日志将在哪里存储日志数据。 我正在使用下面的代码,
logger = logging.getLogger('My-code')
logger.setLevel(logging.INFO)
logger.info("Hello")
如何将此数据(即 logger.info("Hello"))重定向到文件中?
启用持续监控后,您可以在 cloudwatch 中查看作业的完整日志。
要查看日志,您需要为胶水作业启用 cloudwatch,然后您可以查看所有日志并启用这些作业日志的保留。
如果您希望粘合作业将日志直接生成到 s3,则不能使用文件协议或记录器包来完成,而是可以利用有点老套的 rdd 方法。
创建一个包含所需日志消息的列表,最后使用 parallelize
将该列表转换为 rdd,然后将该 rdd 保存到 s3 路径。
但是更推荐使用cloudwatch来获取日志。