Reading/writing pyarrow 张量 from/to 镶木地板文件
Reading/writing pyarrow tensors from/to parquet files
在 pyarrow 中,将 pyarrow.Tensor
(例如从 numpy.ndarray
创建)写入 Parquet 文件的建议方法是什么?是否有可能不必经过 pyarrow.Table
和 pandas.DataFrame
?
Parquet 的数据模型是表格形式,因此 tensor/ndarray 必须在某处转换为表格形式。我们没有任何内置的便利功能来帮助解决这个问题,但请随时在问题跟踪器上提出特定的功能请求 https://issues.apache.org/jira/projects/ARROW
Parquet 格式针对具有嵌套数据的表进行了优化,即它希望数据表示为命名列。这与 n 维列的想法有点相反。对于张量,最好选择不同的格式。
在 pyarrow 中,将 pyarrow.Tensor
(例如从 numpy.ndarray
创建)写入 Parquet 文件的建议方法是什么?是否有可能不必经过 pyarrow.Table
和 pandas.DataFrame
?
Parquet 的数据模型是表格形式,因此 tensor/ndarray 必须在某处转换为表格形式。我们没有任何内置的便利功能来帮助解决这个问题,但请随时在问题跟踪器上提出特定的功能请求 https://issues.apache.org/jira/projects/ARROW
Parquet 格式针对具有嵌套数据的表进行了优化,即它希望数据表示为命名列。这与 n 维列的想法有点相反。对于张量,最好选择不同的格式。