尝试使用 urllib.reques 进行网页抓取时出错
Error when trying to web scraping with urllib.reques
我正在尝试获取以下网站的 html:https://betway.es/es/sports/cpn/tennis/230 以获取比赛的名称和赔率
使用 python:
中的代码
from bs4 import BeautifulSoup
import urllib.request
url = 'https://betway.es/es/sports/cpn/tennis/230'
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, 'html.parser')
soup = str(soup)
但是当我 运行 代码时它抛出下一个异常:HTTPError: HTTP Error 403: Forbidden
我已经看到 headers 可能是可能的,但我对这个模块是全新的,所以不知道如何使用它们。有什么建议吗?另外,虽然我可以下载url,但我找不到几率,谁知道这是什么原因?
不幸的是,我属于被该网站屏蔽的国家/地区。
但是,使用 requests 包:
import requests as rq
from bs4 import BeautifulSoup as bs
url = 'https://betway.es/es/sports/cpn/tennis/230'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:86.0) Gecko/20100101 Firefox/86.0"}
page = rq.get(url, headers=headers)
您可以在 F12 -> 网络 -> 随机行 -> Headers 选项卡
中找到您的 headers
因此,这是一个部分答案。
我正在尝试获取以下网站的 html:https://betway.es/es/sports/cpn/tennis/230 以获取比赛的名称和赔率 使用 python:
中的代码from bs4 import BeautifulSoup
import urllib.request
url = 'https://betway.es/es/sports/cpn/tennis/230'
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, 'html.parser')
soup = str(soup)
但是当我 运行 代码时它抛出下一个异常:HTTPError: HTTP Error 403: Forbidden
我已经看到 headers 可能是可能的,但我对这个模块是全新的,所以不知道如何使用它们。有什么建议吗?另外,虽然我可以下载url,但我找不到几率,谁知道这是什么原因?
不幸的是,我属于被该网站屏蔽的国家/地区。
但是,使用 requests 包:
import requests as rq
from bs4 import BeautifulSoup as bs
url = 'https://betway.es/es/sports/cpn/tennis/230'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:86.0) Gecko/20100101 Firefox/86.0"}
page = rq.get(url, headers=headers)
您可以在 F12 -> 网络 -> 随机行 -> Headers 选项卡
中找到您的 headers
因此,这是一个部分答案。