beautifulsoup 解析返回 HTML

Question

我正在尝试在这里解析一些 html 并使用漂亮的汤

我搜索了一个特定的 div 标签，如下所示：

print soup.find("div", {"class": "sorteringsvalg Alle"})

返回的输出如下：

<div class="sorteringsvalg Alle"> Alle  <label class="sorteringtype">
<input checked="" name="type" type="radio" value="Alle"/>(638) </label></div>

我感兴趣的是括号里的数字，所以我需要进一步处理这个数据。我试过对此使用 're' 正则表达式，但返回的对象未表示为字符串，因此它不起作用。

Answer 1

找到内部输入并得到next sibling:

div = soup.find("div", {"class": "sorteringsvalg Alle"})
print div.find("input", value="Alle").next_sibling.strip()

或者，一次性使用 CSS selector:

soup.select("div.Alle input[value=Alle]")[0].next_sibling.strip()

Answer 2

您可能会得到标签内的字符串如下：

print soup.find("label").get_text(strip=True)

parsing returned HTML by beautifulsoup