coches.net 中的 403 响应使用请求
403 response in coches.net using requests
我对网络 抓取 很陌生。我想在 coches.net 网络上做一个 scraping 来做一些有趣的数据分析练习,但是下面的代码 returns 总是 403 响应。
import requests
from bs4 import BeautifulSoup
import time
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}
base_url = 'https://www.coches.net/segunda-mano/?pg={}&st=1'
for counter in range(1,80):
url = base_url.format(counter)
# Get links
response = requests.get(url)
print (response.status_code)
soup = BeautifulSoup(response.content, "html.parser")
blocks = soup.select('.mt-Card-body')
print (blocks)
time.sleep(1)
我一直在查看一些网页(事实上,我的代码深受目前发现的启发),看来我的代码应该没问题。有什么帮助吗?如何避免 403 响应?是因为我的代码还是 coches.net 不允许 python 脚本访问?
您已创建 headers 但未使用它们。
尝试使用您的用户代理,您将获得 200
状态码
response = requests.get(url, headers=headers)
如果我能帮到你 - 请将答案标记为正确
我对网络 抓取 很陌生。我想在 coches.net 网络上做一个 scraping 来做一些有趣的数据分析练习,但是下面的代码 returns 总是 403 响应。
import requests
from bs4 import BeautifulSoup
import time
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}
base_url = 'https://www.coches.net/segunda-mano/?pg={}&st=1'
for counter in range(1,80):
url = base_url.format(counter)
# Get links
response = requests.get(url)
print (response.status_code)
soup = BeautifulSoup(response.content, "html.parser")
blocks = soup.select('.mt-Card-body')
print (blocks)
time.sleep(1)
我一直在查看一些网页(事实上,我的代码深受目前发现的启发),看来我的代码应该没问题。有什么帮助吗?如何避免 403 响应?是因为我的代码还是 coches.net 不允许 python 脚本访问?
您已创建 headers 但未使用它们。
尝试使用您的用户代理,您将获得 200
状态码
response = requests.get(url, headers=headers)
如果我能帮到你 - 请将答案标记为正确