箭头文件大小与 csv 相同?
arrow file size is the same as csv?
我正在尝试将数据帧保存为 .arrow 格式,主要是为了获得比 CSV 更好的大小,以便将该文件用于 vega-lite
我正在使用 python
import pandas
import pyarrow as pa
csv="C:/Users/mimoune.djouallah/data.csv"
arrow ="C:/Users/mimoune.djouallah/file.arrow"
dataset = pandas.read_csv(csv)
table = pa.Table.from_pandas(dataset)
writer = pa.RecordBatchFileWriter(arrow, table.schema)
writer.write(table)
writer.close()
我原以为箭头文件比 csv 小,现在箭头稍大
我尝试使用镶木地板导出,结果符合预期
原始 csv 文件:4.4 MB
箭头:4.9 MB
镶木地板:1.6 MB
PowerBI(仅供参考):1.7 MB
Arrow 格式的目标不是优化存储大小而是存储性能。与 CSV 相比,数据以二进制形式存储,以消除解析数据的开销。但由于性能至关重要,数据既不压缩也不编码。
如果你想有效地存储数据但数据量较小,你应该看看 Apache Parquet。数据以与 Arrow 类似的方式存储,但在顶部使用了一些有效的技术来减少存储大小。
我正在尝试将数据帧保存为 .arrow 格式,主要是为了获得比 CSV 更好的大小,以便将该文件用于 vega-lite
我正在使用 python
import pandas
import pyarrow as pa
csv="C:/Users/mimoune.djouallah/data.csv"
arrow ="C:/Users/mimoune.djouallah/file.arrow"
dataset = pandas.read_csv(csv)
table = pa.Table.from_pandas(dataset)
writer = pa.RecordBatchFileWriter(arrow, table.schema)
writer.write(table)
writer.close()
我原以为箭头文件比 csv 小,现在箭头稍大
我尝试使用镶木地板导出,结果符合预期
原始 csv 文件:4.4 MB 箭头:4.9 MB 镶木地板:1.6 MB PowerBI(仅供参考):1.7 MB
Arrow 格式的目标不是优化存储大小而是存储性能。与 CSV 相比,数据以二进制形式存储,以消除解析数据的开销。但由于性能至关重要,数据既不压缩也不编码。
如果你想有效地存储数据但数据量较小,你应该看看 Apache Parquet。数据以与 Arrow 类似的方式存储,但在顶部使用了一些有效的技术来减少存储大小。