使用 rvest 抓取图像标题

Scraping image titles with rvest

我正在尝试使用 R 和 SelectorGadget 中的 rvest 包从 Glassdoor 中提取个人评分(API 仅提供汇总评分)以识别我的 CSS 选择器。

问题是 Glassdoor 使用图像来传达评级,但数字评级包含在图像标题中。使用 SelectorGadget,我可以从下面的代码片段中抓取 "Comp & Benefits" 文本(使用“#EmployerReviews undecorated li”),但我无法进入 span...title= 部分中的“2.0”,它是我想要的

<div id='EmployerReviews'> .... <ul class='undecorated'> <li> <div class='minor'>Comp & Benefits</div> <span class='notranslate notranslate_title gdBars gdRatings med ' title="2.0"> 

有没有人在过去成功抓取图片标题,或者知道另一种获得这些个人评分的方法?

您将需要 select 跨度,并使用 html_attr() 提取其属性值:

html <- html("...")
rating <- html %>% 
  html_nodes("#EmployerReviews .undecorated li span.gdRatings") %>%
  html_attr("title")

rating
# [1] "2.0"