R - 提取链接;请求同意的网络抓取站点(接受 cookie)RSelenium
R - extract links; web scraping site that asks for consent (accept cookies) RSelenium
我正在使用 rvest
从
中给出的结果中抓取新闻文章
https://www.derstandard.at/international/2011/12/01
(以及该页面上的其他 1000 多个链接)。
对于其他网页,我使用 hmtl_nodes
提取链接并创建一个循环来打开它们,以便从每篇文章中抓取文本。这是我正在尝试做的事情的简短版本:
library(rvest)
library(tidyverse)
library(RSelenium)
get_text <- function(headline_links) {
article_page <- read_html(headline_links)
text_article <- article_page %>%
html_nodes('.article-body p') %>%
html_text() %>%
paste( collapse = " ")
return(text_article)
}
date <-seq.Date(as.Date("2011/12/01"), as.Date("2012/06/30"), by = 1 )
date <-strptime(date, "%Y-%m-%d")
dat2 <-format(date, "%Y/%m/%d")
Newspaper <- as.list("der standard")
articles_standard <- (data.frame())
for (page_date in date[1:length(date)]) {
link <- paste0("https://www.derstandard.at/international/", page_date)
page <- read_html(link)
headline_links <- page %>%
html_nodes('.teaser-inner') %>%
html_attr("href")
text_all <- vector("character", length(headline_links))
text_all<- sapply(headline_links, FUN = get_text, USE.NAMES = F)
text_all <- as.data.frame(cbind(text_all,headline_links))
articles_standard <- rbind(articles_standard, data.frame(Newspaper, text_all, stringsAsFactors = F))
}
但是,当我尝试提取链接时,我没有得到任何输出。我认为问题是打开我必须接受 cookie 和其他内容的网页时出现的弹出窗口。
我在这里 发现了一些类似的问题,建议在我的浏览器中使用网络分析功能来查找非隐藏 API。但是,我找不到它。
我安装了 PhantomJS 二进制文件并尝试使用它来渲染 HTML 并使用 rvest
和此处提供的代码对其进行抓取:Scraping javascript website in R,但是,我没有得到任何结果那(因为不推荐使用 phantomJS?)。
关于RSelenium
我也看了好几遍,但是从我的阅读来看很慢。无论如何我都试过了,但是,使用 $findElement
函数总是给我一个错误。
我想首先按照此处的建议切换到 iframe
来提取信息: 这只会导致我遇到同样的错误。这是我所做的:
driver <- rsDriver(port = 1333L,browser=c("firefox"))
remote_driver <- driver[["client"]]
remote_driver$navigate(link)
# content is in iframe
frames <- remote_driver$findElements("css", "iframe")
# switch to first ifram
remote_driver$switchToFrame(frames[[1]])
webElem <- remote_driver$findElement(using = "xpath", value ="/html/body/div/div[2]/div[3]/div[1]/button")
webElem$clickElement()
我得到的错误是:
Selenium message:Unable to locate element: #notice.message.type-modal div.message-component.message-row.dst-columns div.message-component.message-column button
For documentation on this error, please visit: https://www.seleniumhq.org/exceptions/no_such_element.html
Build info: version: '4.0.0-alpha-2', revision: 'f148142cf8', time: '2019-07-01T21:30:10'
System info: host: 'DESKTOP-2SMICP6', ip: '137.208.131.247', os.name: 'Windows 10', os.arch: 'amd64', os.version: '10.0', java.version: '1.8.0_311'
Driver info: driver.version: unknown
Error: Summary: NoSuchElement
Detail: An element could not be located on the page using the given search parameters.
class: org.openqa.selenium.NoSuchElementException
Further Details: run errorDetails method
这是我第一次做网页抓取,另外,我对R只有一些经验,对html、javascript等程序并不熟悉。所以,要么我有错误的 css selector
或 xpath
(我也尝试了其他几个,但代码中没有显示)或者还有另一个原因它不起作用。
我现在有点迷茫,所以感谢您的帮助!
网站上有很多弹出窗口。你是对的,你一开始就接受了cookie。
这是获取一个日期链接的代码2011/12/01
url = 'https://www.derstandard.at/international/2011/12/01'
#start the browser
library(RSelenium)
driver = rsDriver(browser = c("firefox"))
remDr <- driver[["client"]]
remDr$navigate(url)
现在您必须接受 iframe
.
中的 cookie
webElem <- remDr$findElements("css", "iframe")
remDr$switchToFrame(webElem[[2]])
remDr$findElement(using = "xpath", '//*[@id="notice"]/div[3]/div[1]/button')$clickElement()
完成此步骤后,我建议使用 remDr$refresh()
刷新几次,因为很少有弹出窗口可能会干扰我们的网络抓取。
然后只提取每篇文章的链接,
remDr$getPageSource()[[1]] %>%
read_html() %>%
html_nodes(xpath = '/html/body/main/div/div[2]/section[1]') %>% html_nodes("a") %>%
html_attr("href")
[1] "/story/1322531678074/deutsche-bundesanwaltschaft-keine-indizien-fuer-anschlagsplaene-teherans"
[2] "/story/1322531677068/regierung-uebersteht-vertrauensabstimmung"
[3] "/story/1322531676520/moskau-lieferte-anti-schiff-raketen"
[4] "/story/1322531676296/vergewaltigungsopfer-soll-taeter-heiraten"
[5] "/story/1322531672482/erneut-zahlreiche-tote-bei-anschlaegen"
[6] "/story/1322531670023/gewerkschaftsbund-von-verfassungsschutz-bespitzelt"
否则你也可以使用,
remDr$getPageSource()[[1]] %>%
read_html() %>%
html_nodes('.teaser-inner') %>% html_nodes("a") %>%
html_attr("href")
[1] "/story/1322531678074/deutsche-bundesanwaltschaft-keine-indizien-fuer-anschlagsplaene-teherans"
[2] "/story/1322531677068/regierung-uebersteht-vertrauensabstimmung"
[3] "/story/1322531676520/moskau-lieferte-anti-schiff-raketen"
我正在使用 rvest
从
https://www.derstandard.at/international/2011/12/01
(以及该页面上的其他 1000 多个链接)。
对于其他网页,我使用 hmtl_nodes
提取链接并创建一个循环来打开它们,以便从每篇文章中抓取文本。这是我正在尝试做的事情的简短版本:
library(rvest)
library(tidyverse)
library(RSelenium)
get_text <- function(headline_links) {
article_page <- read_html(headline_links)
text_article <- article_page %>%
html_nodes('.article-body p') %>%
html_text() %>%
paste( collapse = " ")
return(text_article)
}
date <-seq.Date(as.Date("2011/12/01"), as.Date("2012/06/30"), by = 1 )
date <-strptime(date, "%Y-%m-%d")
dat2 <-format(date, "%Y/%m/%d")
Newspaper <- as.list("der standard")
articles_standard <- (data.frame())
for (page_date in date[1:length(date)]) {
link <- paste0("https://www.derstandard.at/international/", page_date)
page <- read_html(link)
headline_links <- page %>%
html_nodes('.teaser-inner') %>%
html_attr("href")
text_all <- vector("character", length(headline_links))
text_all<- sapply(headline_links, FUN = get_text, USE.NAMES = F)
text_all <- as.data.frame(cbind(text_all,headline_links))
articles_standard <- rbind(articles_standard, data.frame(Newspaper, text_all, stringsAsFactors = F))
}
但是,当我尝试提取链接时,我没有得到任何输出。我认为问题是打开我必须接受 cookie 和其他内容的网页时出现的弹出窗口。
我在这里
我安装了 PhantomJS 二进制文件并尝试使用它来渲染 HTML 并使用 rvest
和此处提供的代码对其进行抓取:Scraping javascript website in R,但是,我没有得到任何结果那(因为不推荐使用 phantomJS?)。
关于RSelenium
我也看了好几遍,但是从我的阅读来看很慢。无论如何我都试过了,但是,使用 $findElement
函数总是给我一个错误。
我想首先按照此处的建议切换到 iframe
来提取信息:
driver <- rsDriver(port = 1333L,browser=c("firefox"))
remote_driver <- driver[["client"]]
remote_driver$navigate(link)
# content is in iframe
frames <- remote_driver$findElements("css", "iframe")
# switch to first ifram
remote_driver$switchToFrame(frames[[1]])
webElem <- remote_driver$findElement(using = "xpath", value ="/html/body/div/div[2]/div[3]/div[1]/button")
webElem$clickElement()
我得到的错误是:
Selenium message:Unable to locate element: #notice.message.type-modal div.message-component.message-row.dst-columns div.message-component.message-column button
For documentation on this error, please visit: https://www.seleniumhq.org/exceptions/no_such_element.html
Build info: version: '4.0.0-alpha-2', revision: 'f148142cf8', time: '2019-07-01T21:30:10'
System info: host: 'DESKTOP-2SMICP6', ip: '137.208.131.247', os.name: 'Windows 10', os.arch: 'amd64', os.version: '10.0', java.version: '1.8.0_311'
Driver info: driver.version: unknown
Error: Summary: NoSuchElement
Detail: An element could not be located on the page using the given search parameters.
class: org.openqa.selenium.NoSuchElementException
Further Details: run errorDetails method
这是我第一次做网页抓取,另外,我对R只有一些经验,对html、javascript等程序并不熟悉。所以,要么我有错误的 css selector
或 xpath
(我也尝试了其他几个,但代码中没有显示)或者还有另一个原因它不起作用。
我现在有点迷茫,所以感谢您的帮助!
网站上有很多弹出窗口。你是对的,你一开始就接受了cookie。
这是获取一个日期链接的代码2011/12/01
url = 'https://www.derstandard.at/international/2011/12/01'
#start the browser
library(RSelenium)
driver = rsDriver(browser = c("firefox"))
remDr <- driver[["client"]]
remDr$navigate(url)
现在您必须接受 iframe
.
webElem <- remDr$findElements("css", "iframe")
remDr$switchToFrame(webElem[[2]])
remDr$findElement(using = "xpath", '//*[@id="notice"]/div[3]/div[1]/button')$clickElement()
完成此步骤后,我建议使用 remDr$refresh()
刷新几次,因为很少有弹出窗口可能会干扰我们的网络抓取。
然后只提取每篇文章的链接,
remDr$getPageSource()[[1]] %>%
read_html() %>%
html_nodes(xpath = '/html/body/main/div/div[2]/section[1]') %>% html_nodes("a") %>%
html_attr("href")
[1] "/story/1322531678074/deutsche-bundesanwaltschaft-keine-indizien-fuer-anschlagsplaene-teherans"
[2] "/story/1322531677068/regierung-uebersteht-vertrauensabstimmung"
[3] "/story/1322531676520/moskau-lieferte-anti-schiff-raketen"
[4] "/story/1322531676296/vergewaltigungsopfer-soll-taeter-heiraten"
[5] "/story/1322531672482/erneut-zahlreiche-tote-bei-anschlaegen"
[6] "/story/1322531670023/gewerkschaftsbund-von-verfassungsschutz-bespitzelt"
否则你也可以使用,
remDr$getPageSource()[[1]] %>%
read_html() %>%
html_nodes('.teaser-inner') %>% html_nodes("a") %>%
html_attr("href")
[1] "/story/1322531678074/deutsche-bundesanwaltschaft-keine-indizien-fuer-anschlagsplaene-teherans"
[2] "/story/1322531677068/regierung-uebersteht-vertrauensabstimmung"
[3] "/story/1322531676520/moskau-lieferte-anti-schiff-raketen"