我可以使用带 Python 和 Selenium 的正则表达式找到元素吗?
Can I find an element using regex with Python and Selenium?
我需要单击一个下拉列表并单击其中的一个隐藏元素。 html 将由 javascript 生成,我不知道 ID 或 class 名称,但我知道其中会有一个短语。我可以通过正则表达式找到和元素,然后用硒点击它吗?
您不能简单地使用内置的 selenium webdriver 定位器进行基于正则表达式的搜索,但您有多种方法可以帮助您:
contains()
and starts-with()
XPath 函数:
//div[contains(., "Desired text")]
//div[starts-with(., "Desired text")]
preceding
, preceding-sibling
, following
and following-sibling
如果您知道需要定位的新生成的元素块的相对位置,可能会对您有所帮助
还有 CSS 选择器 用于元素属性的部分匹配:
a[href*=desiredSubstring] # contains
a[href^=desiredSubstring] # starts-with
a[href$=desiredSubstring] # ends-with
而且您总是可以找到比需要更多的元素,然后在 Python 中过滤掉它们,示例:
import re
pattern = re.compile(r"^Some \w+ text.$")
elements = driver.find_elements_by_css_selector("div.some_class")
for element in elements:
match = pattern.match(element.text)
if match:
print(element.text)
您可以使用 import re
来执行正则表达式功能。下面的代码片段查看 table 并在第一个单元格中的 <b></b>
标签之间抓取文本(如果该行中有 3 个单元格。
import re
from lxml import html, etree
tree = html.fromstring(browser.page_source)
party_table = tree.xpath("//table")
assert len(party_table) == 1
CURRENT_PARTIES = []
for row in party_table[0].xpath("tbody/tr"):
cells = row.xpath("td")
if len(cells) != 3:
continue
if cells[1].text == "represented by":
match = re.search(r'<b>(.+?)</b>', etree.tostring(cells[0]), re.IGNORECASE)
print "MATCH: ", match
我需要单击一个下拉列表并单击其中的一个隐藏元素。 html 将由 javascript 生成,我不知道 ID 或 class 名称,但我知道其中会有一个短语。我可以通过正则表达式找到和元素,然后用硒点击它吗?
您不能简单地使用内置的 selenium webdriver 定位器进行基于正则表达式的搜索,但您有多种方法可以帮助您:
contains()
andstarts-with()
XPath 函数://div[contains(., "Desired text")] //div[starts-with(., "Desired text")]
preceding
,preceding-sibling
,following
andfollowing-sibling
如果您知道需要定位的新生成的元素块的相对位置,可能会对您有所帮助
还有 CSS 选择器 用于元素属性的部分匹配:
a[href*=desiredSubstring] # contains
a[href^=desiredSubstring] # starts-with
a[href$=desiredSubstring] # ends-with
而且您总是可以找到比需要更多的元素,然后在 Python 中过滤掉它们,示例:
import re
pattern = re.compile(r"^Some \w+ text.$")
elements = driver.find_elements_by_css_selector("div.some_class")
for element in elements:
match = pattern.match(element.text)
if match:
print(element.text)
您可以使用 import re
来执行正则表达式功能。下面的代码片段查看 table 并在第一个单元格中的 <b></b>
标签之间抓取文本(如果该行中有 3 个单元格。
import re
from lxml import html, etree
tree = html.fromstring(browser.page_source)
party_table = tree.xpath("//table")
assert len(party_table) == 1
CURRENT_PARTIES = []
for row in party_table[0].xpath("tbody/tr"):
cells = row.xpath("td")
if len(cells) != 3:
continue
if cells[1].text == "represented by":
match = re.search(r'<b>(.+?)</b>', etree.tostring(cells[0]), re.IGNORECASE)
print "MATCH: ", match