你如何使用 EC.presence_of_element_located((By.ID, "myDynamicElement")) 除了指定 class 而不是 ID

How do you use EC.presence_of_element_located((By.ID, "myDynamicElement")) except to specify class not ID

我正在尝试使用 Python 网络抓取一个网站,该网站通过使用嵌入的 javascript 文件动态加载它的 HTML ,这些文件将数据作为响应呈现到 HTML.因此,如果我单独使用 BeautifulSoup,我将无法检索我需要的数据,因为我的程序会在 Javascript 加载数据之前抓取它。因此,我将 selenium 库集成到我的代码中,让我的程序在抓取网站之前等到找到某个元素。

我最初是这样做的:

element = WebDriverWait(driver,100).until(EC.presence_of_element_located((By.ID, "tabla_evolucion")))

但我想指定一个 class,而不是通过执行以下操作:

element = WebDriverWait(driver,100).until(EC.presence_of_element_located((By.class, "ng-binding ng-scope")))  

这是我的其余代码:

driver_path = 'C:/webDrivers/chromedriver.exe'
driver = webdriver.Chrome(executable_path=driver_path)
driver.header_overrides = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'}
url = "myurlthatIamscraping.com" 
response = driver.get(url)
html = driver.page_source
characters = len(html)
element = WebDriverWait(driver,100).until(EC.presence_of_element_located((By.class, "ng-binding ng-scope")))

print(html)
print(characters)
time.sleep(10)
driver.quit()

它对我不起作用,我在任何地方都找不到正确的语法。

它在 the docs.

Set of supported locator strategies.
CLASS_NAME = 'class name'
CSS_SELECTOR = 'css selector'
ID = 'id'
LINK_TEXT = 'link text'
NAME = 'name'
PARTIAL_LINK_TEXT = 'partial link text'
TAG_NAME = 'tag name'
XPATH = 'xpath'

注意:您的代码中包含的不是 class,而是两个 class。如果您使用 By.CLASS_NAME(),那将不起作用,因为它只需要一个 class。你想要的是 CSS 选择器

EC.presence_of_element_located((By.CSS_SELECTOR, ".ng-binding.ng-scope")))

在CSS选择器语法中,.表示class。有关 CSS 选择器语法的更多信息,请参阅 the W3C docs

相关的 HTML 会帮助我们构建一个更规范的答案。但是,从您的第一行代码开始:

element = WebDriverWait(driver,100).until(EC.presence_of_element_located(
  (By.ID, "tabla_evolucion")))

几乎是合法的,因为第二行代码:

element = WebDriverWait(driver,100).until(EC.presence_of_element_located(
  (By.class, "ng-binding ng-scope")))

将引发错误:

Message: invalid selector: Compound class names not permitted

因为您不能通过 By.class.

传递多个 类

You can find a detailed discussion in


解决方案

您需要处理以下几件事:

  • 在您的用例没有任何可见性的情况下,在功能上诱导 WebDriverWaitEC 关联,因为 presence_of_element_located() 仅确认存在DOM Tree 中的元素。大概向前推进要么你需要获得属性,例如valueinnerText 等,否则您将与该元素交互。因此,您需要使用 visibility_of_element_located()element_to_be_clickable()
  • 而不是 presence_of_element_located()

You can find a detailed discussion in

  • 为了获得最佳结果,您可以组合 IDCLASS 属性,并且可以使用以下任一 :

  • 使用CSS_SELECTOR:

  element = WebDriverWait(driver, 20).until(EC.visibility_of_element_located(
    (By.CSS_SELECTOR, ".ng-binding.ng-scope#tabla_evolucion")))
  • 使用XPATH
  element = WebDriverWait(driver, 20).until(EC.visibility_of_element_located(
    (By.XPATH, "//*[@class='ng-binding ng-scope' and @id='tabla_evolucion']")))

我有一个解决方案试试这个- 将 class class 更改为 CLASS_NAME

element = WebDriverWait(driver,100).until(EC.presence_of_element_located((By.CLASS_NAME , "ng-binding ng-scope")))

试试下面的方法:

element = WebDriverWait(driver,100).until(EC.presence_of_element_located((By.CLASS_NAME, "ng-binding")))

element = WebDriverWait(driver,100).until(EC.presence_of_element_located((By.CLASS_NAME, "ng-scope")))

有一件事需要提及,您正在尝试传递两个 class 名称,即 ng-binding 是一个 class,ng-scope 是另一个。