Python 网页抓取查询 DIV 数据品牌

Question

我试图在 html 页面中获取 div 标签，但结果显示的是一个空列表。我已经提供了 html 的代码和图片。 page_text 变量是一个空列表。

url = 'https://www.highspeedinternet.com/in-your-area?zip=50648'
                                
page = requests.get(url).text
doc = BeautifulSoup(page, "html.parser")
page_text = doc.find_all("div", {"data-brand"})
print(page_text)

Answer 1

您已接近您的目标，只需将 True 添加到您的 dict:

doc.find_all('div',{"data-brand":True})

作为替代方案，您可以使用 css selectors 和 list comprehension 来获取所有值：

[e.get('data-brand') for e in doc.select('div[data-brand]')]

输出：

['CenturyLink', 'Rise Broadband', 'LTD Broadband LLC', 'Viasat', 'HughesNet', 'Heartland Technology', 'Ooma', 'CenturyLink', 'Rise Broadband', 'LTD Broadband LLC', 'Viasat', 'HughesNet', 'Ooma', 'Heartland Technology', 'T-Mobile', 'Verizon Wireless', 'AT&T Wireless', 'Mint', 'Visible']

Python 网页抓取查询 DIV 数据品牌

Python Web Scrape Query DIV data-brand

html

python

beautifulsoup

python-requests