R 写入 stdout 非常慢。有什么改善方法吗?
R writing to stdout very slow. Any ways to improve?
我正在编写一个简单的命令行 Rscript,它读取一些二进制数据并将其作为数字字符流输出。数据具有特定格式,R 有一个非常快速的库来处理相关的二进制文件。文件(700 万个字符)被快速读取 - 不到一秒:
library(affyio)
system.time(CEL <- read.celfile("testCEL.CEL"))
user system elapsed
0.462 0.035 0.498
我想将一部分读取数据写入标准输出:
str(CEL$INTENSITY$MEAN)
num [1:6553600] 6955 225 7173 182 148 ...
如您所见,它是具有约 650 万个整数的数字数据。
而且写的很慢:
system.time(write(CEL$INTENSITY$MEAN, file="TEST.out"))
user system elapsed
8.953 10.739 19.694
(这里是写入文件,但是从 Rscript 写入标准输出需要相同的时间
cat(vector)
根本没有提高速度。我发现的一项改进是:
system.time(writeLines(as.character(CEL$INTENSITY$MEAN), "TEST.out"))
user system elapsed
6.282 0.016 6.298
它与读入数据时的速度(并且它读取的数据是这个特定向量的 5 倍)仍然相去甚远。此外,在我继续之前,我有将整个向量转换为字符的开销。另外,当下沉到标准输出时,如果我不小心将其重定向到文件,我将无法使用 CTRL+C 终止流。
所以我的问题是 - 是否有更快的方法将数字向量从 R 简单地输出到标准输出?
还有为什么读数据比写数据快那么多?这不仅适用于二进制文件,而且通常适用于:
system.time(tmp <- scan("TEST.out"))
Read 6553600 items
user system elapsed
1.216 0.028 1.245
二进制读取速度很快。打印到 stdout 很慢有两个原因:
- 正在格式化
- 实际印刷
您也可以进行基准测试/配置文件。但如果你真的想成为 "fast",请远离用于打印大量数据的格式化。
编译代码有助于加快转换速度。但同样,最快的解决方案将
- 保留二进制
- 不写入标准输出或文件(但使用诸如 Redis 之类的东西)。
我正在编写一个简单的命令行 Rscript,它读取一些二进制数据并将其作为数字字符流输出。数据具有特定格式,R 有一个非常快速的库来处理相关的二进制文件。文件(700 万个字符)被快速读取 - 不到一秒:
library(affyio)
system.time(CEL <- read.celfile("testCEL.CEL"))
user system elapsed
0.462 0.035 0.498
我想将一部分读取数据写入标准输出:
str(CEL$INTENSITY$MEAN)
num [1:6553600] 6955 225 7173 182 148 ...
如您所见,它是具有约 650 万个整数的数字数据。
而且写的很慢:
system.time(write(CEL$INTENSITY$MEAN, file="TEST.out"))
user system elapsed
8.953 10.739 19.694
(这里是写入文件,但是从 Rscript 写入标准输出需要相同的时间
cat(vector)
根本没有提高速度。我发现的一项改进是:
system.time(writeLines(as.character(CEL$INTENSITY$MEAN), "TEST.out"))
user system elapsed
6.282 0.016 6.298
它与读入数据时的速度(并且它读取的数据是这个特定向量的 5 倍)仍然相去甚远。此外,在我继续之前,我有将整个向量转换为字符的开销。另外,当下沉到标准输出时,如果我不小心将其重定向到文件,我将无法使用 CTRL+C 终止流。
所以我的问题是 - 是否有更快的方法将数字向量从 R 简单地输出到标准输出?
还有为什么读数据比写数据快那么多?这不仅适用于二进制文件,而且通常适用于:
system.time(tmp <- scan("TEST.out"))
Read 6553600 items
user system elapsed
1.216 0.028 1.245
二进制读取速度很快。打印到 stdout 很慢有两个原因:
- 正在格式化
- 实际印刷
您也可以进行基准测试/配置文件。但如果你真的想成为 "fast",请远离用于打印大量数据的格式化。
编译代码有助于加快转换速度。但同样,最快的解决方案将
- 保留二进制
- 不写入标准输出或文件(但使用诸如 Redis 之类的东西)。