2 .feather 文件具有相同的数据,完全不同的大小?
2 .feather files with same data, completely different sizes?
我有 2 个基于相同数据的羽毛文件。唯一的区别是获取数据的方式。
文件 1 有一个查询列表,按月细分,每个查询都保存为单独的文件。然后将每个文件读入字典并在 python.
中与 pd.concat(dict[values])
连接
文件 2 是另一个查询列表,分为多个部分,每个部分都保存为单独的文件。然后通过我不熟悉的 R 中的某个过程连接每个文件。
看了两个文件,发现数据是一样的。相同的行数、总和等
但是文件1是3GB,文件2是6GB。这是为什么?
发生这种情况是因为 6GB 的文件包含的块多于 3GB 的文件。
拆分的块文件越少,压缩效果越好。
比较使用和不使用“创建实体存档”选项的 WinRar 压缩。
值得一提的是,6GB的文件可能更适合随机读取。
我有 2 个基于相同数据的羽毛文件。唯一的区别是获取数据的方式。
文件 1 有一个查询列表,按月细分,每个查询都保存为单独的文件。然后将每个文件读入字典并在 python.
中与pd.concat(dict[values])
连接
文件 2 是另一个查询列表,分为多个部分,每个部分都保存为单独的文件。然后通过我不熟悉的 R 中的某个过程连接每个文件。
看了两个文件,发现数据是一样的。相同的行数、总和等
但是文件1是3GB,文件2是6GB。这是为什么?
发生这种情况是因为 6GB 的文件包含的块多于 3GB 的文件。 拆分的块文件越少,压缩效果越好。 比较使用和不使用“创建实体存档”选项的 WinRar 压缩。 值得一提的是,6GB的文件可能更适合随机读取。