尝试从图像 url 中抓取图像(使用 python urllib )但得到 html
Try to scrape image from image url (using python urllib ) but get html instead
我尝试从以下 url 中获取图像。
我可以右键单击并另存为,但是当我尝试使用 urlretrieve like
import urllib
img_url = 'http://upic.me/i/fj/the_wonderful_mist_once_again_01.jpg'
urllib.urlretrieve( img_url, 'cover.jpg')
我发现它是 html 而不是 .jpg 图片,但我不知道为什么。
你能告诉我为什么我的方法不起作用吗?有没有可以模仿右键另存为方法的选项?
这样试试:
import urllib2
image = urllib2.urlopen('http://upic.me/i/fj/the_wonderful_mist_once_again_01.jpg').read()
f = open('some_name.jpg','w')
f.write(image)
f.close()
您可以使用Requests, if you havn't installed yet, pip install requests
因为如果您没有提供 referer
header.
所以下面的代码首先找到redirecturl,并将其添加到HTTP Refererheader.
import requests
img_url = 'http://upic.me/i/fj/the_wonderful_mist_once_again_01.jpg'
r = requests.get(img_url, allow_redirects=False) # stop redirect 302 , capture redirects url
headers = {}
headers['Referer'] = r.headers['location'] # add this url to referer 'http://upic.me/show/55132055'
r = requests.get(img_url, headers=headers)
filename = img_url.split('/')[-1] # find the file name in `img_url`
with open(filename, 'wb') as fh: # use 'wb' to write in binary mode
fh.write(r.content)
我尝试从以下 url 中获取图像。
我可以右键单击并另存为,但是当我尝试使用 urlretrieve like
import urllib
img_url = 'http://upic.me/i/fj/the_wonderful_mist_once_again_01.jpg'
urllib.urlretrieve( img_url, 'cover.jpg')
我发现它是 html 而不是 .jpg 图片,但我不知道为什么。 你能告诉我为什么我的方法不起作用吗?有没有可以模仿右键另存为方法的选项?
这样试试:
import urllib2
image = urllib2.urlopen('http://upic.me/i/fj/the_wonderful_mist_once_again_01.jpg').read()
f = open('some_name.jpg','w')
f.write(image)
f.close()
您可以使用Requests, if you havn't installed yet, pip install requests
因为如果您没有提供 referer
header.
所以下面的代码首先找到redirecturl,并将其添加到HTTP Refererheader.
import requests
img_url = 'http://upic.me/i/fj/the_wonderful_mist_once_again_01.jpg'
r = requests.get(img_url, allow_redirects=False) # stop redirect 302 , capture redirects url
headers = {}
headers['Referer'] = r.headers['location'] # add this url to referer 'http://upic.me/show/55132055'
r = requests.get(img_url, headers=headers)
filename = img_url.split('/')[-1] # find the file name in `img_url`
with open(filename, 'wb') as fh: # use 'wb' to write in binary mode
fh.write(r.content)