beautifulsoup 解析返回 HTML

parsing returned HTML by beautifulsoup

我正在尝试在这里解析一些 html 并使用漂亮的汤

我搜索了一个特定的 div 标签,如下所示:

print soup.find("div", {"class": "sorteringsvalg Alle"})

返回的输出如下:

<div class="sorteringsvalg Alle"> Alle  <label class="sorteringtype">
<input checked="" name="type" type="radio" value="Alle"/>(638) </label></div>

我感兴趣的是括号里的数字,所以我需要进一步处理这个数据。我试过对此使用 're' 正则表达式,但返回的对象未表示为字符串,因此它不起作用。

找到内部输入并得到next sibling:

div = soup.find("div", {"class": "sorteringsvalg Alle"})
print div.find("input", value="Alle").next_sibling.strip()

或者,一次性使用 CSS selector:

soup.select("div.Alle input[value=Alle]")[0].next_sibling.strip()

您可能会得到标签内的字符串如下:

print soup.find("label").get_text(strip=True)