将大型数据帧写入 S3 AWS 时出现内存错误
memory error while writing a large dataframe to S3 AWS
我使用 amazon sagemaker 创建了一个具有以下形状的数据框。
10612611 rows × 4 columns
全部为数值。
当我尝试如下将此数据帧写入我的 S3 存储桶时,出现内存错误。
bytes_to_write = df.to_csv(None).encode()
with s3.open('aws-athena-query-results-xxxxxxx/query_result/xx.csv','wb') as f:
f.write(bytes_to_write)
MemoryError:
我正在为 sagemaker 实例使用 ml。t2.medium。
我通过将实例类型从 ml.t2.medium 更改为 ml.t2.2xlarge 解决了这个问题,它工作完美。
最初的问题是实例类型的 RAM 而不是 S3。
我使用 amazon sagemaker 创建了一个具有以下形状的数据框。
10612611 rows × 4 columns
全部为数值。 当我尝试如下将此数据帧写入我的 S3 存储桶时,出现内存错误。
bytes_to_write = df.to_csv(None).encode()
with s3.open('aws-athena-query-results-xxxxxxx/query_result/xx.csv','wb') as f:
f.write(bytes_to_write)
MemoryError:
我正在为 sagemaker 实例使用 ml。t2.medium。
我通过将实例类型从 ml.t2.medium 更改为 ml.t2.2xlarge 解决了这个问题,它工作完美。
最初的问题是实例类型的 RAM 而不是 S3。