fread() 用方括号外的逗号作为分隔符

fread() with commas outside square brackets as separators

我正在尝试使用 fread() 从网站获取一些数据。使用逗号分隔符可以方便地设置数据,但出现错误:

1: In fread("https://website.com/") :
Stopped early on line 56. Expected 5 fields but found 6. Consider fill=TRUE and comment.char=. First discarded non-empty line: <<0,1,1,x[[0], [1]],0>>

这是因为第 56 行之前的条目在第 4 列上有一个空白,所以类似于 <<1,1,1,0>>,而第 56 行在第 4 列上有一个逗号,所以它将它分成两列。现在,我希望整个 x[[y], [z]] 都在一个单元格中,所以我希望我的数据用逗号分隔,但当逗号位于方括号内时则不需要。

编辑: 真正的网站是私有的,所以在这里 link 没有任何意义,但它只是包含 csv 格式的数据。类似于:

field1,field2,field3,field4,field5
1,0,0,,1
0,0,0,,1
1,1,0,,1
1,1,0,,1
............
0,1,1,x[[0], [1]],0
0,1,0,x[[0], [1]],1
1,0,1,,1
0,0,1,x[[1], [0]],0
............

问题出现的事实是 x[[0], [1]] 应该全部在一个单元格中,但由于逗号分隔符,它被分成两个单元格。

有没有办法用 fread()? 或任何其他具有类似目的的函数来做到这一点?

提前谢谢你,如果问题有点基础,我很抱歉,我才刚刚开始使用 R。

一条建议:

来自文档:

'fread' is for regular delimited files; i.e., where every row has the same number of
columns.

如果列数因文件生成错误而变化或不规则,readLines 之类的替代方案将使您能够逐行处理文件——也许使用正则表达式,例如 [=12] =],等等

与其使用 fread 直接从您的私人网站读取您的 CSV 文件,您可以先下载 CSV,然后:

  1. 读取 CSV 的行(没有任何特殊解析),这将等同于我的 csv_lines <- read_lines(my_weird_csv_text);
  2. 然后,根据正则表达式 "(?!\])(\,)(?!\s\[)" 拆分这些读取的行,而不是使用单个逗号 ","(这确保了 "[[" 和 [=16 的表达式中的逗号=] 不用作拆分字符);
  3. 最后,从结果矩阵的第一行 (split_lines) 定义从 split_lines.
  4. 强制转换而来的新 dataframe/tibble 的列名

我希望清楚。

基本上,我们必须通过逐行阅读然后根据处理特殊情况的正则表达式进行拆分来规避直接阅读功能,例如 fread 或其他等效功能。

library(readr)
library(data.table)
library(stringr)
library(tibble)

my_weird_csv_text <- 
"field1,field2,field3,field4,field5
1,0,0,,1
0,0,0,,1
1,1,0,,1
1,1,0,,1
0,1,1,x[[0], [1]],0
0,1,0,x[[0], [1]],1
1,0,1,,1
0,0,1,x[[1], [0]],0"

csv_lines <- read_lines(my_weird_csv_text)

split_lines <- stringr::str_split(csv_lines, "(?!\])(\,)(?!\s\[)", simplify = TRUE)

as_tibble(split_lines[-1, ]) %>%
  `colnames<-`(split_lines[1, ]) -> tbl

tbl
#> # A tibble: 8 x 5
#>   field1 field2 field3 field4      field5
#>   <chr>  <chr>  <chr>  <chr>       <chr> 
#> 1 1      0      0      ""          1     
#> 2 0      0      0      ""          1     
#> 3 1      1      0      ""          1     
#> 4 1      1      0      ""          1     
#> 5 0      1      1      x[[0], [1]] 0     
#> 6 0      1      0      x[[0], [1]] 1     
#> 7 1      0      1      ""          1     
#> 8 0      0      1      x[[1], [0]] 0