beautifulsoup 解析返回 HTML
parsing returned HTML by beautifulsoup
我正在尝试在这里解析一些 html 并使用漂亮的汤
我搜索了一个特定的 div 标签,如下所示:
print soup.find("div", {"class": "sorteringsvalg Alle"})
返回的输出如下:
<div class="sorteringsvalg Alle"> Alle <label class="sorteringtype">
<input checked="" name="type" type="radio" value="Alle"/>(638) </label></div>
我感兴趣的是括号里的数字,所以我需要进一步处理这个数据。我试过对此使用 're' 正则表达式,但返回的对象未表示为字符串,因此它不起作用。
找到内部输入并得到next sibling:
div = soup.find("div", {"class": "sorteringsvalg Alle"})
print div.find("input", value="Alle").next_sibling.strip()
或者,一次性使用 CSS selector:
soup.select("div.Alle input[value=Alle]")[0].next_sibling.strip()
您可能会得到标签内的字符串如下:
print soup.find("label").get_text(strip=True)
我正在尝试在这里解析一些 html 并使用漂亮的汤
我搜索了一个特定的 div 标签,如下所示:
print soup.find("div", {"class": "sorteringsvalg Alle"})
返回的输出如下:
<div class="sorteringsvalg Alle"> Alle <label class="sorteringtype">
<input checked="" name="type" type="radio" value="Alle"/>(638) </label></div>
我感兴趣的是括号里的数字,所以我需要进一步处理这个数据。我试过对此使用 're' 正则表达式,但返回的对象未表示为字符串,因此它不起作用。
找到内部输入并得到next sibling:
div = soup.find("div", {"class": "sorteringsvalg Alle"})
print div.find("input", value="Alle").next_sibling.strip()
或者,一次性使用 CSS selector:
soup.select("div.Alle input[value=Alle]")[0].next_sibling.strip()
您可能会得到标签内的字符串如下:
print soup.find("label").get_text(strip=True)