如何在R中获取ftp地址的所有页面下游
How to get all pages dowstream of ftp address in R
我想从 ftp/html 站点检索所有下游页面的列表:
假设我有一个站点:
ftp://example.gov/ # (not real)
其中包含所有 pages/files:
ftp://example.gov/dir1
ftp://example.gov/dir1/file1.txt
ftp://example.gov/dir2
ftp://example.gov/dir2/thing.txt
ftp://example.gov/dir3
ftp://example.gov/dir3/another
ftp://example.gov/dir3/another/other.txt
所以如果我开始:
base_site <- "ftp://example.gov/"
我想要网站的列表"paths"(即我想要的输出是一个 r 对象,其中包含所有上述示例链接作为字符)输出可以嵌套或整齐。
library(RCurl)
url<-"ftp://ftp2.census.gov/"
alldir<-getURL(url, ftp.use.epsv = FALSE, ftplistonly = TRUE, crlf = TRUE)
alldir<-paste(url, strsplit(alldir, "\r*\n")[[1]], sep = "")
head(alldir)
[1] "ftp://ftp2.census.gov/AHS" "ftp://ftp2.census.gov/AOA"
[3] "ftp://ftp2.census.gov/CTPP_2006_2010" "ftp://ftp2.census.gov/EEO_2006_2010"
[5] "ftp://ftp2.census.gov/EEO_Disability_2008-2010" "ftp://ftp2.census.gov/Econ2001_And_Earlier"
详情见
?getURL {RCurl}
我想从 ftp/html 站点检索所有下游页面的列表:
假设我有一个站点:
ftp://example.gov/ # (not real)
其中包含所有 pages/files:
ftp://example.gov/dir1
ftp://example.gov/dir1/file1.txt
ftp://example.gov/dir2
ftp://example.gov/dir2/thing.txt
ftp://example.gov/dir3
ftp://example.gov/dir3/another
ftp://example.gov/dir3/another/other.txt
所以如果我开始:
base_site <- "ftp://example.gov/"
我想要网站的列表"paths"(即我想要的输出是一个 r 对象,其中包含所有上述示例链接作为字符)输出可以嵌套或整齐。
library(RCurl)
url<-"ftp://ftp2.census.gov/"
alldir<-getURL(url, ftp.use.epsv = FALSE, ftplistonly = TRUE, crlf = TRUE)
alldir<-paste(url, strsplit(alldir, "\r*\n")[[1]], sep = "")
head(alldir)
[1] "ftp://ftp2.census.gov/AHS" "ftp://ftp2.census.gov/AOA"
[3] "ftp://ftp2.census.gov/CTPP_2006_2010" "ftp://ftp2.census.gov/EEO_2006_2010"
[5] "ftp://ftp2.census.gov/EEO_Disability_2008-2010" "ftp://ftp2.census.gov/Econ2001_And_Earlier"
详情见
?getURL {RCurl}