Beautiful Soup 在 html 代码中可以看到所有其他标签时只提取一个标签

Question

试图了解网络抓取的工作原理：

import requests
from bs4 import BeautifulSoup as soup
url = "https://webscraper.io/test-sites/e-commerce/allinone/computers/laptops"
result = requests.get(url)
doc = soup(result.text, "lxml")
items = doc.find_all('div', {'class': 'col-sm-4 col-lg-4 col-md-4'})
for item in items:
    caption = item.find('div', {'class': 'caption'})
    price = item.find('h4', {'class': 'pull-right price'})
print(price.string)

然而，当我运行这一切时，returns 是网站的最终价格（$1799.00）。为什么它会跳过所有其他 h4 标签而只跳过 return 最后一个标签？

如有任何帮助，我们将不胜感激！

如果您需要更多信息，请告诉我

Answer 1

会发生什么？

您在最终迭代结果后调用 print()，这就是为什么您只得到最后一个结果的原因。

如何修复？

将 print() 放入循环中

for item in items:
    caption = item.find('div', {'class': 'caption'})
    price = item.find('h4', {'class': 'pull-right price'})
    print(price.string)

输出

例子

与其在迭代时打印结果，不如将它们结构化地存储在字典列表中，并在 for 循环之后打印或保存它

import requests
from bs4 import BeautifulSoup as soup
url = "https://webscraper.io/test-sites/e-commerce/allinone/computers/laptops"
result = requests.get(url)
doc = soup(result.text, "lxml")
items = doc.find_all('div', {'class': 'col-sm-4 col-lg-4 col-md-4'})
data = []
for item in items:
    data.append({
        'caption' : item.a['title'],
        'price' : item.find('h4', {'class': 'pull-right price'}).string
    })
    
print(data)

Beautiful Soup 在 html 代码中可以看到所有其他标签时只提取一个标签

Beautiful Soup only extracting one tag when can see all the others in the html code

python

lxml

beautifulsoup

html-parsing

web-scraping

会发生什么？

如何修复？

输出

例子