尝试使用 urllib.reques 进行网页抓取时出错

Question

我正在尝试获取以下网站的 html：https://betway.es/es/sports/cpn/tennis/230 以获取比赛的名称和赔率使用 python:

中的代码

from bs4 import BeautifulSoup
import urllib.request

url = 'https://betway.es/es/sports/cpn/tennis/230'
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, 'html.parser')
soup = str(soup)

但是当我运行代码时它抛出下一个异常：HTTPError: HTTP Error 403: Forbidden 我已经看到 headers 可能是可能的，但我对这个模块是全新的，所以不知道如何使用它们。有什么建议吗？另外，虽然我可以下载url，但我找不到几率，谁知道这是什么原因？

Answer 1

不幸的是，我属于被该网站屏蔽的国家/地区。
但是，使用 requests 包：

import requests as rq
from bs4 import BeautifulSoup as bs

url = 'https://betway.es/es/sports/cpn/tennis/230'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:86.0) Gecko/20100101 Firefox/86.0"}
page = rq.get(url, headers=headers)

您可以在 F12 -> 网络 -> 随机行 -> Headers 选项卡
中找到您的 headers 因此，这是一个部分答案。

尝试使用 urllib.reques 进行网页抓取时出错

Error when trying to web scraping with urllib.reques

python

selenium

urllib

web-scraping