如何使用 R 和 rvest 轮换代理和 IP 地址
How To Rotate Proxies and IP Addresses using R and rvest
我正在做一些抓取,但是当我解析大约 4000 个 URL 时,该网站最终检测到我的 IP 并每 20 次迭代阻止我。
我已经写了一堆 Sys.sleep(5)
和一个 tryCatch
所以我不会很快被阻止。
我使用 VPN,但我必须不时地手动断开连接并重新连接以更改我的 IP。这不是一个合适的解决方案,因为这样的刮板应该 运行 整夜。
我认为轮换代理应该可以完成这项工作。
这是我当前的代码(至少是其中的一部分):
library(rvest)
library(dplyr)
scraped_data = data.frame()
for (i in urlsuffixes$suffix)
{
tryCatch({
message("Let's scrape that, Buddy !")
Sys.sleep(5)
doctolib_url = paste0("https://www.website.com/test/", i)
page = read_html(site_url)
links = page %>%
html_nodes(".seo-directory-doctor-link") %>%
html_attr("href")
Sys.sleep(5)
name = page %>%
html_nodes(".seo-directory-doctor-link") %>%
html_text()
Sys.sleep(5)
job_title = page %>%
html_nodes(".seo-directory-doctor-speciality") %>%
html_text()
Sys.sleep(5)
address = page %>%
html_nodes(".seo-directory-doctor-address") %>%
html_text()
Sys.sleep(5)
scraped_data = rbind(scraped_data, data.frame(links,
name,
address,
job_title,
stringsAsFactors = FALSE))
}, error=function(e){cat("Houston, we have a problem !","\n",conditionMessage(e),"\n")})
print(paste("Page : ", i))
}
有趣的问题。我认为首先要注意的是,如 this Github issue 中所述,rvest
和 xml2
使用 httr
进行连接。因此,我将在这个答案中引入 httr
。
通过 httr 使用代理
以下代码块显示了如何使用 httr
通过代理查询 url 并提取 html 内容。
page <- httr::content(
httr::GET(
url,
httr::use_proxy(ip, port, username, password)
)
)
如果您正在使用 IP 身份验证或不需要用户名和密码,您可以简单地从调用中排除这些值。
简而言之,您可以将 page = read_html(site_url)
替换为上面的代码块。
旋转代理
使用代理的一个大问题是获得可靠的代理。为此,我假设您有可靠的消息来源。由于您没有另外说明,我将假设您的代理以以下合理格式存储,对象名称为 proxies
:
ip
port
64.235.204.107
8080
167.71.190.253
80
185.156.172.122
3128
考虑到这种格式,您可以调整上面的脚本块,为每个 Web 请求轮换代理,如下所示:
library(dplyr)
library(httr)
library(rvest)
scraped_data = data.frame()
for (i in 1:length(urlsuffixes$suffix))
{
tryCatch({
message("Let's scrape that, Buddy !")
Sys.sleep(5)
doctolib_url = paste0("https://www.website.com/test/",
urlsuffixes$suffix[[i]])
# The number of urls is longer than the proxy list -- which proxy to use
# I know this isn't the greatest, but it works so whatever
proxy_id <- ifelse(i %% nrow(proxies) == 0, nrow(proxies), i %% nrow(proxies))
page <- httr::content(
httr::GET(
doctolib_url,
httr::use_proxy(proxies$ip[[proxy_id]], proxies$port[[proxy_id]])
)
)
links = page %>%
html_nodes(".seo-directory-doctor-link") %>%
html_attr("href")
Sys.sleep(5)
name = page %>%
html_nodes(".seo-directory-doctor-link") %>%
html_text()
Sys.sleep(5)
job_title = page %>%
html_nodes(".seo-directory-doctor-speciality") %>%
html_text()
Sys.sleep(5)
address = page %>%
html_nodes(".seo-directory-doctor-address") %>%
html_text()
Sys.sleep(5)
scraped_data = rbind(scraped_data, data.frame(links,
name,
address,
job_title,
stringsAsFactors = FALSE))
}, error=function(e){cat("Houston, we have a problem !","\n",conditionMessage(e),"\n")})
print(paste("Page : ", i))
}
这可能还不够
您可能想更进一步,向 httr
请求添加元素,例如用户代理等。但是,像 httr
这样的包的一个大问题是它无法呈现动态 html 内容,例如 JavaScript-呈现 html,任何真正关心阻止爬虫的网站都会检测到这一点。为了解决这个问题,可以使用诸如 Headless Chrome 之类的工具来专门解决此类问题。这是您可能想要查看的软件包 headless Chrome in R 注意:仍在开发中。
免责声明
显然,我认为这段代码可以工作,但由于没有可重现的数据可供测试,所以它可能不会。
我正在做一些抓取,但是当我解析大约 4000 个 URL 时,该网站最终检测到我的 IP 并每 20 次迭代阻止我。
我已经写了一堆 Sys.sleep(5)
和一个 tryCatch
所以我不会很快被阻止。
我使用 VPN,但我必须不时地手动断开连接并重新连接以更改我的 IP。这不是一个合适的解决方案,因为这样的刮板应该 运行 整夜。
我认为轮换代理应该可以完成这项工作。
这是我当前的代码(至少是其中的一部分):
library(rvest)
library(dplyr)
scraped_data = data.frame()
for (i in urlsuffixes$suffix)
{
tryCatch({
message("Let's scrape that, Buddy !")
Sys.sleep(5)
doctolib_url = paste0("https://www.website.com/test/", i)
page = read_html(site_url)
links = page %>%
html_nodes(".seo-directory-doctor-link") %>%
html_attr("href")
Sys.sleep(5)
name = page %>%
html_nodes(".seo-directory-doctor-link") %>%
html_text()
Sys.sleep(5)
job_title = page %>%
html_nodes(".seo-directory-doctor-speciality") %>%
html_text()
Sys.sleep(5)
address = page %>%
html_nodes(".seo-directory-doctor-address") %>%
html_text()
Sys.sleep(5)
scraped_data = rbind(scraped_data, data.frame(links,
name,
address,
job_title,
stringsAsFactors = FALSE))
}, error=function(e){cat("Houston, we have a problem !","\n",conditionMessage(e),"\n")})
print(paste("Page : ", i))
}
有趣的问题。我认为首先要注意的是,如 this Github issue 中所述,rvest
和 xml2
使用 httr
进行连接。因此,我将在这个答案中引入 httr
。
通过 httr 使用代理
以下代码块显示了如何使用 httr
通过代理查询 url 并提取 html 内容。
page <- httr::content(
httr::GET(
url,
httr::use_proxy(ip, port, username, password)
)
)
如果您正在使用 IP 身份验证或不需要用户名和密码,您可以简单地从调用中排除这些值。
简而言之,您可以将 page = read_html(site_url)
替换为上面的代码块。
旋转代理
使用代理的一个大问题是获得可靠的代理。为此,我假设您有可靠的消息来源。由于您没有另外说明,我将假设您的代理以以下合理格式存储,对象名称为 proxies
:
ip | port |
---|---|
64.235.204.107 | 8080 |
167.71.190.253 | 80 |
185.156.172.122 | 3128 |
考虑到这种格式,您可以调整上面的脚本块,为每个 Web 请求轮换代理,如下所示:
library(dplyr)
library(httr)
library(rvest)
scraped_data = data.frame()
for (i in 1:length(urlsuffixes$suffix))
{
tryCatch({
message("Let's scrape that, Buddy !")
Sys.sleep(5)
doctolib_url = paste0("https://www.website.com/test/",
urlsuffixes$suffix[[i]])
# The number of urls is longer than the proxy list -- which proxy to use
# I know this isn't the greatest, but it works so whatever
proxy_id <- ifelse(i %% nrow(proxies) == 0, nrow(proxies), i %% nrow(proxies))
page <- httr::content(
httr::GET(
doctolib_url,
httr::use_proxy(proxies$ip[[proxy_id]], proxies$port[[proxy_id]])
)
)
links = page %>%
html_nodes(".seo-directory-doctor-link") %>%
html_attr("href")
Sys.sleep(5)
name = page %>%
html_nodes(".seo-directory-doctor-link") %>%
html_text()
Sys.sleep(5)
job_title = page %>%
html_nodes(".seo-directory-doctor-speciality") %>%
html_text()
Sys.sleep(5)
address = page %>%
html_nodes(".seo-directory-doctor-address") %>%
html_text()
Sys.sleep(5)
scraped_data = rbind(scraped_data, data.frame(links,
name,
address,
job_title,
stringsAsFactors = FALSE))
}, error=function(e){cat("Houston, we have a problem !","\n",conditionMessage(e),"\n")})
print(paste("Page : ", i))
}
这可能还不够
您可能想更进一步,向 httr
请求添加元素,例如用户代理等。但是,像 httr
这样的包的一个大问题是它无法呈现动态 html 内容,例如 JavaScript-呈现 html,任何真正关心阻止爬虫的网站都会检测到这一点。为了解决这个问题,可以使用诸如 Headless Chrome 之类的工具来专门解决此类问题。这是您可能想要查看的软件包 headless Chrome in R 注意:仍在开发中。
免责声明
显然,我认为这段代码可以工作,但由于没有可重现的数据可供测试,所以它可能不会。