Rvest html_nodes 跨度 div 其他项目

Rvest html_nodes span div other items

我正在浏览这个 html,我想提取 <span data-testid="distance">

中的文本
<span class="class1">
<span data-testid="distance">the text i want</span>
</span>
<span class="class2">
<span class="class1"><span>the other text i'm obtaining</span>
</span>

distancia <- hoteles_verdes %>% 
  html_elements("span.class1") %>%
  html_text()

问题是如何隔离 html 元素上的 data-testid="distance" 以便稍后检索 html_text。

这是我的第一个问题贴。谢谢!

您可以使用 CSS attribute selector.

例如,[属性|="值"] select或select attribute "data-testid" 与 value = "的距离"(注意单引号和双引号):

library(rvest)

hoteles_verdes %>% 
  html_nodes('[data-testid|="distance"]') %>% 
  html_text()

结果:

[1] "the text i want"

数据:

hotel_verdes <- read_html('<span class="class1">
                           <span data-testid="distance">the text i want</span>
                           </span>
                           <span class="class2">
                           <span class="class1"><span>the other text im obtaining</span>
                           </span>')