对于同一数据帧,RDs 格式的权重超过 csv 一个

RDs format weights more than csv one for the same dataframe

因此,我以 csv 和 RDs 格式保存了一个数据帧,但 RDs 的权重明显高于 csv 替代方案(40 GB 与 10 GB)。根据this blog:

[RDs format] creates a serialized version of the dataset and then saves it with gzip compression

那么,如果RDs数据是压缩的,而csv是未压缩的,那为什么RDs版本会重那么多?如果数据集很小,我会理解其中的区别,但它是 140,000 x 42,000,所以渐近法的加入应该没有问题。

你用什么命令将文件保存为Rds?如果您使用 save_rds() 则默认情况下不会压缩 RDS 文件。

write_rds() does not compress by default as space is generally cheaper than time. (https://readr.tidyverse.org/reference/read_rds.html)

从这篇文章 (https://waterdata.usgs.gov/blog/formats/) 看来,未压缩的 RDS 文件大约大 20 倍,因此这可以解释您看到的大小差异。

因此,我认为这是在计算新数据帧的索引时与 R 中的整数溢出相关的一些问题。尽管在文档中的任何地方我都找不到将溢出作为此类错误的可能原因的参考,但我确实 运行 解决了与 Python 类似的问题,文档指出溢出是可能的原因。我找不到任何其他方法来解决这个问题,不得不减小我的数据集的大小,之后一切正常。