R - 提取链接；请求同意的网络抓取站点（接受 cookie）RSelenium

Question

我正在使用 rvest 从

中给出的结果中抓取新闻文章

https://www.derstandard.at/international/2011/12/01

（以及该页面上的其他 1000 多个链接）。

对于其他网页，我使用 hmtl_nodes 提取链接并创建一个循环来打开它们，以便从每篇文章中抓取文本。这是我正在尝试做的事情的简短版本：

library(rvest)
library(tidyverse)
library(RSelenium)

get_text <-  function(headline_links) {
  article_page <- read_html(headline_links)
  text_article <- article_page %>%
    html_nodes('.article-body p') %>%
    html_text() %>%
    paste( collapse = " ")
  return(text_article)
}

date <-seq.Date(as.Date("2011/12/01"), as.Date("2012/06/30"), by = 1 )
date <-strptime(date, "%Y-%m-%d")
dat2 <-format(date, "%Y/%m/%d")

Newspaper <- as.list("der standard")
articles_standard <- (data.frame())

for (page_date in date[1:length(date)]) {
  
      link <- paste0("https://www.derstandard.at/international/", page_date)
      page <- read_html(link)
      headline_links <- page %>%
            html_nodes('.teaser-inner') %>%
            html_attr("href")
          
      text_all <- vector("character", length(headline_links))
      text_all<- sapply(headline_links, FUN = get_text, USE.NAMES = F)
      text_all <- as.data.frame(cbind(text_all,headline_links))
      articles_standard <- rbind(articles_standard, data.frame(Newspaper, text_all, stringsAsFactors = F))
}

但是，当我尝试提取链接时，我没有得到任何输出。我认为问题是打开我必须接受 cookie 和其他内容的网页时出现的弹出窗口。

我在这里发现了一些类似的问题，建议在我的浏览器中使用网络分析功能来查找非隐藏 API。但是，我找不到它。

我安装了 PhantomJS 二进制文件并尝试使用它来渲染 HTML 并使用 rvest 和此处提供的代码对其进行抓取：Scraping javascript website in R，但是，我没有得到任何结果那（因为不推荐使用 phantomJS？）。

关于RSelenium我也看了好几遍，但是从我的阅读来看很慢。无论如何我都试过了，但是，使用 $findElement 函数总是给我一个错误。我想首先按照此处的建议切换到 iframe 来提取信息：这只会导致我遇到同样的错误。这是我所做的：

     driver <- rsDriver(port = 1333L,browser=c("firefox"))
      remote_driver <- driver[["client"]]
      remote_driver$navigate(link)
      # content is in iframe
      frames <- remote_driver$findElements("css", "iframe")
      # switch to first ifram
      remote_driver$switchToFrame(frames[[1]])
      webElem <- remote_driver$findElement(using = "xpath", value ="/html/body/div/div[2]/div[3]/div[1]/button")
      webElem$clickElement()

我得到的错误是：

Selenium message:Unable to locate element: #notice.message.type-modal div.message-component.message-row.dst-columns div.message-component.message-column button
For documentation on this error, please visit: https://www.seleniumhq.org/exceptions/no_such_element.html
Build info: version: '4.0.0-alpha-2', revision: 'f148142cf8', time: '2019-07-01T21:30:10'
System info: host: 'DESKTOP-2SMICP6', ip: '137.208.131.247', os.name: 'Windows 10', os.arch: 'amd64', os.version: '10.0', java.version: '1.8.0_311'
Driver info: driver.version: unknown

Error:   Summary: NoSuchElement
     Detail: An element could not be located on the page using the given search parameters.
     class: org.openqa.selenium.NoSuchElementException
     Further Details: run errorDetails method

这是我第一次做网页抓取，另外，我对R只有一些经验，对html、javascript等程序并不熟悉。所以，要么我有错误的 css selector 或 xpath（我也尝试了其他几个，但代码中没有显示）或者还有另一个原因它不起作用。

我现在有点迷茫，所以感谢您的帮助！

Answer 1

网站上有很多弹出窗口。你是对的，你一开始就接受了cookie。

这是获取一个日期链接的代码2011/12/01

url = 'https://www.derstandard.at/international/2011/12/01'
#start the browser
library(RSelenium)
driver = rsDriver(browser = c("firefox"))
remDr <- driver[["client"]]
remDr$navigate(url)

现在您必须接受 iframe.

中的 cookie

webElem <- remDr$findElements("css", "iframe")
remDr$switchToFrame(webElem[[2]])
remDr$findElement(using = "xpath", '//*[@id="notice"]/div[3]/div[1]/button')$clickElement()

完成此步骤后，我建议使用 remDr$refresh() 刷新几次，因为很少有弹出窗口可能会干扰我们的网络抓取。

然后只提取每篇文章的链接，

remDr$getPageSource()[[1]] %>% 
  read_html() %>% 
  html_nodes(xpath = '/html/body/main/div/div[2]/section[1]') %>% html_nodes("a") %>% 
  html_attr("href")
       [1] "/story/1322531678074/deutsche-bundesanwaltschaft-keine-indizien-fuer-anschlagsplaene-teherans"                             
 [2] "/story/1322531677068/regierung-uebersteht-vertrauensabstimmung"                                                            
 [3] "/story/1322531676520/moskau-lieferte-anti-schiff-raketen"                                                                  
 [4] "/story/1322531676296/vergewaltigungsopfer-soll-taeter-heiraten"                                                            
 [5] "/story/1322531672482/erneut-zahlreiche-tote-bei-anschlaegen"                                                               
 [6] "/story/1322531670023/gewerkschaftsbund-von-verfassungsschutz-bespitzelt"

否则你也可以使用,

remDr$getPageSource()[[1]] %>% 
  read_html() %>% 
  html_nodes('.teaser-inner') %>% html_nodes("a") %>% 
  html_attr("href")
       [1] "/story/1322531678074/deutsche-bundesanwaltschaft-keine-indizien-fuer-anschlagsplaene-teherans"                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 
 [2] "/story/1322531677068/regierung-uebersteht-vertrauensabstimmung"                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                
 [3] "/story/1322531676520/moskau-lieferte-anti-schiff-raketen"

R - 提取链接；请求同意的网络抓取站点（接受 cookie）RSelenium

R - extract links; web scraping site that asks for consent (accept cookies) RSelenium

r

web-scraping

rselenium

rvest