请求不显示网站代码的所有元素

Question

我正试图从一个篮球比赛博彩网站上获取赔率。我打开了两个屏幕，一个显示 python，另一个显示我检查元素的网站。但是，当我尝试通过查看网站的元素来浏览汤时，代码突然 returns:

<div id="table-matches"></div>

Process finished with exit code 0

但是，当我查看网站的元素时，我应该仍然能够进一步导航。有谁知道汤怎么可能不包含网站上的所有元素（/代码行）？我应该如何更改我的代码以便我可以提取每场比赛的赔率？这是我的代码：

import bs4
import lxml
from urllib.request import Request, urlopen
from bs4 import BeautifulSoup as soup


page = 'https://www.oddsportal.com/matches/basketball/20210102/?r=3'
req = Request(page, headers={'User-Agent': 'Mozilla/8.0'})
webpage = urlopen(req).read()
page_soup = soup(webpage, 'html.parser')

odds = page_soup.body.div.div.find('div', id='mother').find('div', id='wrap').div.div.div.find('div',id='col-left').find('div',id='col-content').find('div',id='table-matches')
print(odds)

通过查看网站的元素，我认为我必须使用 .find('table', class_='table-main') 来提取 table。但是，这样做 returns:

None

Answer 1

正如 Eric 所说，该网页加载了 JS，这意味着当您请求时数据不存在。这可能是您正在寻找的数据。

代码不包括 table headers.

from requests_html import HTMLSession

session = HTMLSession()
r = session.get("https://www.oddsportal.com/matches/basketball/20210102/?r=3")
r.html.render()
page_soup = soup(r.html.html, "html.parser")

table = page_soup.table

table_rows = table.find_all("tr")

for tr in table_rows:

    td = tr.find_all("td")
    row = [i.text for i in td]
    if row:
        print(row)

请求不显示网站代码的所有元素

Request does not show all elements of website code

python

beautifulsoup

python-requests

screen-scraping