无法解压缩超大文件
Trouble unzipping extremely large files
我收到了一些压缩后的文件,但解压后有 30GB 以上,并且压缩在 Windows 中。我正在尝试使用 EC2 实例创建一个系统来解压缩这些,但我一直在用尽内存(错误 IOError: [Errno 28] No space left on device
)。我的解压脚本如下:
import boto3
from boto3.s3.transfer import S3Transfer
from zipfile import ZipFile as zip
import ec2metadata
import re
s3 = boto3.client('s3')
transfer = S3Transfer(s3)
def get_info():
userdata = re.findall(r"\=(.*?) ", ec2metadata.get('user-data'))
global dump_bucket
dump_bucket = userdata[0]
global bucket
bucket = userdata[1]
global key
key = userdata[2]
return dump_bucket, bucket, key
def unzipper(origin_bucket, origin_file, dest_bucket):
s3.download_file(bucket, key, '/tmp/file.zip')
zfile = zip('/tmp/file.zip')
namelist = zfile.namelist()
for filename in namelist:
data = zfile.read(filename)
f = open('/tmp/' + str(filename), 'wb')
f.write(data)
f.close()
transfer.upload_file('/tmp/' + str(filename), dump_bucket, namelist[0])
def main():
get_info()
unzipper(dump_bucket, bucket, key)
main()
有没有更好的解压缩文件的方法?我试过流式传输它,但由于它最初的压缩方式,这很可能不起作用。
我能够通过增加可用内存来解决这个问题,部分问题也来自编码。所以必须将默认编码更改为 latin-1
我收到了一些压缩后的文件,但解压后有 30GB 以上,并且压缩在 Windows 中。我正在尝试使用 EC2 实例创建一个系统来解压缩这些,但我一直在用尽内存(错误 IOError: [Errno 28] No space left on device
)。我的解压脚本如下:
import boto3
from boto3.s3.transfer import S3Transfer
from zipfile import ZipFile as zip
import ec2metadata
import re
s3 = boto3.client('s3')
transfer = S3Transfer(s3)
def get_info():
userdata = re.findall(r"\=(.*?) ", ec2metadata.get('user-data'))
global dump_bucket
dump_bucket = userdata[0]
global bucket
bucket = userdata[1]
global key
key = userdata[2]
return dump_bucket, bucket, key
def unzipper(origin_bucket, origin_file, dest_bucket):
s3.download_file(bucket, key, '/tmp/file.zip')
zfile = zip('/tmp/file.zip')
namelist = zfile.namelist()
for filename in namelist:
data = zfile.read(filename)
f = open('/tmp/' + str(filename), 'wb')
f.write(data)
f.close()
transfer.upload_file('/tmp/' + str(filename), dump_bucket, namelist[0])
def main():
get_info()
unzipper(dump_bucket, bucket, key)
main()
有没有更好的解压缩文件的方法?我试过流式传输它,但由于它最初的压缩方式,这很可能不起作用。
我能够通过增加可用内存来解决这个问题,部分问题也来自编码。所以必须将默认编码更改为 latin-1