如何索引 PyArrow Table?
How to index a PyArrow Table?
我目前在我的机器学习模型中使用 Arrow 从 Parquet 读取数据。目前我正在尝试弄清楚如何从箭头 table 中获取某些记录。我看到 Arrow Table 有一个“Take” api ,但我不确定如何使用它。我尝试传入一个 int 索引,但是当我尝试这样做时,出现以下异常:
Got unexpected argument type <class 'int'> for compute function
谁知道我如何从箭头读取记录table?
pyarrow 的 take()
方法 Table 需要 array-like 个索引(而不是单个整数索引):
>>> import pyarrow as pa
>>> table = pa.table({'a': range(5)})
>>> table.to_pandas()
a
0 0
1 1
2 2
3 3
4 4
>>> table.take([0, 2]).to_pandas()
a
0 0
1 2
我目前在我的机器学习模型中使用 Arrow 从 Parquet 读取数据。目前我正在尝试弄清楚如何从箭头 table 中获取某些记录。我看到 Arrow Table 有一个“Take” api ,但我不确定如何使用它。我尝试传入一个 int 索引,但是当我尝试这样做时,出现以下异常:
Got unexpected argument type <class 'int'> for compute function
谁知道我如何从箭头读取记录table?
pyarrow 的 take()
方法 Table 需要 array-like 个索引(而不是单个整数索引):
>>> import pyarrow as pa
>>> table = pa.table({'a': range(5)})
>>> table.to_pandas()
a
0 0
1 1
2 2
3 3
4 4
>>> table.take([0, 2]).to_pandas()
a
0 0
1 2