R 写入 stdout 非常慢。有什么改善方法吗?

R writing to stdout very slow. Any ways to improve?

我正在编写一个简单的命令行 Rscript,它读取一些二进制数据并将其作为数字字符流输出。数据具有特定格式,R 有一个非常快速的库来处理相关的二进制文件。文件(700 万个字符)被快速读取 - 不到一秒:

library(affyio)
system.time(CEL <- read.celfile("testCEL.CEL"))

user  system elapsed 
0.462   0.035   0.498

我想将一部分读取数据写入标准输出:

str(CEL$INTENSITY$MEAN)
num [1:6553600] 6955 225 7173 182 148 ...

如您所见,它是具有约 650 万个整数的数字数据。

而且写的很慢:

system.time(write(CEL$INTENSITY$MEAN, file="TEST.out"))
user  system elapsed 
8.953  10.739  19.694

(这里是写入文件,但是从 Rscript 写入标准输出需要相同的时间

cat(vector)根本没有提高速度。我发现的一项改进是:

system.time(writeLines(as.character(CEL$INTENSITY$MEAN), "TEST.out"))
user  system elapsed 
6.282   0.016   6.298

它与读入数据时的速度(并且它读取的数据是这个特定向量的 5 倍)仍然相去甚远。此外,在我继续之前,我有将整个向量转换为字符的开销。另外,当下沉到标准输出时,如果我不小心将其重定向到文件,我将无法使用 CTRL+C 终止流。

所以我的问题是 - 是否有更快的方法将数字向量从 R 简单地输出到标准输出?

还有为什么读数据比写数据快那么多?这不仅适用于二进制文件,而且通常适用于:

system.time(tmp <- scan("TEST.out"))
Read 6553600 items
user  system elapsed 
1.216   0.028   1.245 

二进制读取速度很快。打印到 stdout 很慢有两个原因:

  • 正在格式化
  • 实际印刷

您也可以进行基准测试/配置文件。但如果你真的想成为 "fast",请远离用于打印大量数据的格式化。

编译代码有助于加快转换速度。但同样,最快的解决方案将

  • 保留二进制
  • 不写入标准输出或文件(但使用诸如 Redis 之类的东西)。