无法使用请求从 Amazon s3 流式传输文件
Can't stream files from Amazon s3 using requests
我正在尝试从 Common Crawl 流式传输爬网数据,但是当我使用 stream=True
参数获取请求时,Amazon s3 出现错误。这是一个例子:
resp = requests.get(url, stream=True)
print(resp.raw.read())
当我 运行 在 Common Crawl s3 http url 上执行此操作时,我得到响应:
b'<?xml version="1.0" encoding="UTF-8"?>\n<Error><Code>NoSuchKey</Code>
<Message>The specified key does not exist.</Message><Key>crawl-data/CC-
MAIN-2018-05/segments/1516084886237.6/warc/CC-
MAIN-20180116070444-20180116090444-00000.warc.gz\n</Key>
<RequestId>3652F4DCFAE0F641</RequestId><HostId>Do0NlzMr6
/wWKclt2G6qrGCmD5gZzdj5/GNTSGpHrAAu5+SIQeY15WC3VC6p/7/1g2q+t+7vllw=
</HostId></Error>'
我正在使用 warcio,需要一个流式文件对象作为存档迭代器的输入,并且由于内存有限,无法一次下载所有文件。我该怎么办?
PS。我在示例中请求的 url 是 https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2018-05/segments/1516084886237.6/warc/CC-MAIN-20180116070444-20180116090444-00000.warc.gz
您的 url 有误。比较您得到的响应中的密钥:
<Key>crawl-data/CC-
MAIN-2018-05/segments/1516084886237.6/warc/CC-
MAIN-20180116070444-20180116090444-00000.warc.gz\n</Key>
到预期的url:
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2018-05/segments/1516084886237.6/warc/CC-MAIN-20180116070444-20180116090444-00000.warc.gz
出于某种原因,您添加了不必要的空格,可能是在文件读取过程中发现的(readline()
会在每一行中添加尾随 '\n' 字符)。也许尝试调用 .strip()
来删除尾随的换行符。
我正在尝试从 Common Crawl 流式传输爬网数据,但是当我使用 stream=True
参数获取请求时,Amazon s3 出现错误。这是一个例子:
resp = requests.get(url, stream=True)
print(resp.raw.read())
当我 运行 在 Common Crawl s3 http url 上执行此操作时,我得到响应:
b'<?xml version="1.0" encoding="UTF-8"?>\n<Error><Code>NoSuchKey</Code>
<Message>The specified key does not exist.</Message><Key>crawl-data/CC-
MAIN-2018-05/segments/1516084886237.6/warc/CC-
MAIN-20180116070444-20180116090444-00000.warc.gz\n</Key>
<RequestId>3652F4DCFAE0F641</RequestId><HostId>Do0NlzMr6
/wWKclt2G6qrGCmD5gZzdj5/GNTSGpHrAAu5+SIQeY15WC3VC6p/7/1g2q+t+7vllw=
</HostId></Error>'
我正在使用 warcio,需要一个流式文件对象作为存档迭代器的输入,并且由于内存有限,无法一次下载所有文件。我该怎么办?
PS。我在示例中请求的 url 是 https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2018-05/segments/1516084886237.6/warc/CC-MAIN-20180116070444-20180116090444-00000.warc.gz
您的 url 有误。比较您得到的响应中的密钥:
<Key>crawl-data/CC-
MAIN-2018-05/segments/1516084886237.6/warc/CC-
MAIN-20180116070444-20180116090444-00000.warc.gz\n</Key>
到预期的url:
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2018-05/segments/1516084886237.6/warc/CC-MAIN-20180116070444-20180116090444-00000.warc.gz
出于某种原因,您添加了不必要的空格,可能是在文件读取过程中发现的(readline()
会在每一行中添加尾随 '\n' 字符)。也许尝试调用 .strip()
来删除尾随的换行符。