如何在 R 中通过网络检测远程文件夹中新添加的文件?

How can I detect newly added files in a distant folder over the web in R?

我如何在服务器上编写 R 脚本 运行,它会检测何时将新的 CSV 文件(或其他特定格式)添加到网络上的远程文件夹中,并自动下载?

示例文件夹:https://ftp.ncbi.nlm.nih.gov/pub/pmc/

一旦在这个文件夹中添加了新的 CSV 文件,我想立即下载它以在本地处理它。

我知道 OP 正在寻找一个 "event listener" 来监视文件服务器上的更改,但是必须从远程计算机发送 一些 消息来通知你的电脑的变化。如果您无法控制文件服务器,让它向您发送消息的唯一方法是首先向它发送请求。这意味着唯一可用的通用 "event listener" 是通过间歇性轮询服务器来工作的。

根据您轮询的频率,这应该可以很好地作为事件侦听器。作为类比,许多种类的蝙蝠通过发出间歇性超声波脉冲并聆听响应来捕猎。这是一种间歇性轮询的形式,效果很好,足以让它们存活。

这意味着必须在您自己的计算机的后台安装某种软件 运行。您在这里的两个选择是间歇性地对 运行 R 脚本使用调度,或者 运行 在后台循环并在轮询之间暂停的 R 脚本。

从评论看来,OP 只想下载添加到服务器的任何 文件,而不是在程序首次运行时创建现有文件的副本 运行.这意味着必须在本地存储一个文件,列出上次检查时 ftp 目录的内容,然后将其与 ftp 目录的当前内容进行比较,并将任何新文件下载为以及更新内容记录。

这里有一个函数可以做到这一点。第一次 运行 时,它会创建一个新的本地目录,该目录以托管 url 命名,以及一个包含当时目录列表的 .csv 文件。在此之后对该函数的后续调用将比较本地和远程目录的内容并下载任何新文件:

local_mirror <- function(url, root_dir = path.expand("~/"), silent = FALSE)
{
  if(substring(root_dir, nchar(root_dir), nchar(root_dir)) != "/")
    root_dir <- paste0(root_dir, "/")
  content <- rvest::html_nodes(xml2::read_html(url), "a")
  links <- rvest::html_attr(content, "href")
  links <- grep("/", links, invert = TRUE, value = TRUE)
  rel_path <- strsplit(url, "//")[[1]][2]
  mirror_path <- paste0(root_dir, rel_path)
  if(!dir.exists(mirror_path))
  {
    build_path <- root_dir
    for(i in strsplit(rel_path, "/")[[1]])
    {
      build_path <- paste0(build_path, i, "/")
      dir.create(build_path)
    }
    write.csv(links, paste0(mirror_path, ".mirrordat.csv"))
  }
  records <- read.csv(paste0(mirror_path, ".mirrordat.csv"), stringsAsFactors = FALSE)
  current_files <- records$x
  n_updated <- 0
  if(!silent) cat("Updating files - please wait")
  for(i in seq_along(links))
  {
    if(!(links[i] %in% current_files))
    {
      download.file(paste0(url, links[i]), paste0(mirror_path, links[i]))
      n_updated <- n_updated + 1
    }
  }
  if(!silent) message(paste("Downloaded", n_updated, "files"))
  write.csv(links, paste0(mirror_path, ".mirrordat.csv"))
}

要运行你的函数,你只需运行:

local_mirror("https://ftp.ncbi.nlm.nih.gov/pub/pmc/")

并 运行 它作为常量 "event monitor" 在后台,你可以将它放在循环函数中,如下所示:

listen_for_changes <- function(url, poll_every = 5, silent = TRUE)
{
  repeat
  {
    local_mirror(url, silent = silent)
    Sys.sleep(poll_every)
  }
}

你会 运行 与:

listen_for_changes("https://ftp.ncbi.nlm.nih.gov/pub/pmc/")

我前一段时间遇到了类似的问题,为此我写了一个(有点)综合的函数,叫做 repchkdl(),我现在把它打包成一个小的 R 包。

这是其 Github 存储库的 link

它在很多方面类似于@Allan Cameron 建议的解决方案,并提供了额外的选项来微调远程 URL 的扫描方式(manual/auto 选项)、文件的下载方式(例如,使用正则表达式过滤)和迭代频率 + 限制(例如,每 2 分钟扫描一次,总共重复两次,然后退出)等等。

用法示例:

test <- repchkdl(inpurl = "ftp://speedtest.tele2.net/upload/", 
                 inpregex = ".txt$", autoscan = "y", autodl = "y", inpwait = 10,
                 scanlim = 2)

这将自动从 URL ftp://speedtest.tele2.net/upload/ 下载 (autoscan = "y", autodl = "y") 所有以 .txt (inpregex = ".txt$") 结尾的文件,并每 10 秒检查一次更新 (inpwait = 10)。该函数将在退出前重新检查两次 (scanlim = 2)。文件名向量将保存到对象 test.

编辑: 该软件包已经过全面检修,并具有其他功能,包括静音模式操作。回购位置仍然是 same。函数调用略有变化如下(作为示例):

test <- repchkdl(url = "ftp://ftp.swfwmd.state.fl.us/pub/usf/", 
                 usr = "anonymous", pwd = "exampleuser@example.com",
                 scanlim = 2, wait = 2, verbosity = TRUE)

head(test)
#                      flinks   fsizes dlstats
# 1        SWFWMD_May2020.txt 25321197 SUCCESS
# 2 USF_SCADA_AM_20200517.csv  2322041 SUCCESS
# 3 USF_SCADA_AM_20200518.csv  2321932 SUCCESS
# 4 USF_SCADA_AM_20200519.csv  2323118 SUCCESS
# 5 USF_SCADA_AM_20200520.csv  2322689 SUCCESS
# 6 USF_SCADA_AM_20200521.csv  2322243 SUCCESS