如何查找具有特定父元素的元素?
How to find element with specific parent?
我有一些 HTML 像:
<div class='cl1'>
<div class='cl2'>text_1</div>
<div class='cl3'>
<div class='cl2'>text_2</div>
</div>
</div>
我需要找到 cl2 class 中以 cl1 为父项的任何项目,因此我需要获取 text_1 但不是 text_2。简单的 css 应该是这样的:
'div.cl1>div.cl2'
但我使用 robobrowser 和 BeautifulSoup,当我尝试
soup.select('div.cl1>div.cl2')
它说 css 选择器是错误的。
一个可能的解决方案是:
from bs4 import BeautifulSoup
data = """
<div class='cl1'>
<div class='cl2'>text_1</div>
<div class='cl3'>
<div class='cl2'>text_2</div>
</div>
</div>
"""
soup = BeautifulSoup(data)
divs = [div
for div in soup.find_all("div", {'class': 'cl2'})
if 'cl1' in div.parent["class"]]
# [<div class="cl2">text_1</div>]
您的选择器是正确的,您只需要 space 出 类 即 div.cl1>div.cl2
应该是 div.cl1 > div.cl2
:
In [5]: from bs4 import BeautifulSoup
In [6]: html = """<div class='cl1'>
<div class='cl2'>text_1</div>
<div class='cl3'>
<div class='cl2'>text_2</div>
</div>
</div>"""
In [7]: soup = BeautifulSoup(html, "html.parser")
In [8]: soup.select_one("div.cl1 > div.cl2") # good
Out[8]: <div class="cl2">text_1</div>
In [9]: print(soup.select_one("div.cl1>div.cl2")) # bad
None
我有一些 HTML 像:
<div class='cl1'>
<div class='cl2'>text_1</div>
<div class='cl3'>
<div class='cl2'>text_2</div>
</div>
</div>
我需要找到 cl2 class 中以 cl1 为父项的任何项目,因此我需要获取 text_1 但不是 text_2。简单的 css 应该是这样的:
'div.cl1>div.cl2'
但我使用 robobrowser 和 BeautifulSoup,当我尝试
soup.select('div.cl1>div.cl2')
它说 css 选择器是错误的。
一个可能的解决方案是:
from bs4 import BeautifulSoup
data = """
<div class='cl1'>
<div class='cl2'>text_1</div>
<div class='cl3'>
<div class='cl2'>text_2</div>
</div>
</div>
"""
soup = BeautifulSoup(data)
divs = [div
for div in soup.find_all("div", {'class': 'cl2'})
if 'cl1' in div.parent["class"]]
# [<div class="cl2">text_1</div>]
您的选择器是正确的,您只需要 space 出 类 即 div.cl1>div.cl2
应该是 div.cl1 > div.cl2
:
In [5]: from bs4 import BeautifulSoup
In [6]: html = """<div class='cl1'>
<div class='cl2'>text_1</div>
<div class='cl3'>
<div class='cl2'>text_2</div>
</div>
</div>"""
In [7]: soup = BeautifulSoup(html, "html.parser")
In [8]: soup.select_one("div.cl1 > div.cl2") # good
Out[8]: <div class="cl2">text_1</div>
In [9]: print(soup.select_one("div.cl1>div.cl2")) # bad
None