如何使用Apache Arrow来做到"a + b + c*5 + d*3"?

how to use Apache Arrow to do "a + b + c*5 + d*3"?

我想到了使用预定义函数来执行此操作:计算“a + b”、“c * 5”、“d * 3”,然后将结果相加。

但是这种方式好像生成了很多代码。有没有更好的方法来做到这一点?

顺便问一下,Apache Arrow 默认使用 SIMD(c++ 版本)吗?如果没有,如何让它使用 SIMD?

PyArrow 目前不会覆盖 Python 中的运算符,但您可以轻松调用算术计算函数。 (这里使用 functools.reduce 因为加法内核是二进制的,而不是 n 元的。)

PyArrow 会根据编译时使用的标志自动使用 SIMD。它应该使用你的 CPU 支持的 'highest' SIMD 级别,它是为它编译的。并非所有计算函数实现都在内部利用 SIMD。现在看起来主要是聚合内核在这样做。

>>> import pyarrow as pa
>>> import pyarrow.compute as pc
>>> import functools
>>> pa.__version__
'4.0.1'
>>> a = pa.array([1,2,3])
>>> b = pa.array([3,4,5])
>>> c = pa.array([1,0,1])
>>> d = pa.array([2,4,2])
>>> functools.reduce(pc.add, [pc.add(a,b), pc.multiply(c, 5), pc.multiply(d, 3)])
<pyarrow.lib.Int64Array object at 0x7fd5a0d9c040>
[
  15,
  18,
  19
]