python memoryview 比预期慢
python memoryview slower than expected
鉴于 Python 的 memoryview
缓冲协议接口可以帮助减少制作临时数据副本的需要,我决定基于此对其进行快速测试 answer to this question.
import time
expressions = ['list(b[i:i+1000])',
'list(b[i:])',
'b[i:]'
]
size = 1000000
x = b'x'*size
mv = memoryview(x)
for e in expressions:
print(f"Expression: {e}")
for b in (x, mv):
l = len(b)
start = time.time()
for i in range(0, l, 1000):
eval(e)
end = time.time()
print(f"Size: {size}, {type(b).__name__}, time: {end-start}")
结果:
$ python c:\temp\test_memoryview.py
Expression: list(b[i:i+1000])
Size: 1000000, bytes, time: 0.021999597549438477
Size: 1000000, memoryview, time: 0.03600668907165527
Expression: list(b[i:])
Size: 1000000, bytes, time: 5.3010172843933105
Size: 1000000, memoryview, time: 11.202003479003906
Expression: b[i:]
Size: 1000000, bytes, time: 0.2990117073059082
Size: 1000000, memoryview, time: 0.006985902786254883
前两个结果似乎是一个令人惊讶的结果。
我知道调用列表将涉及数据的副本,但我认为当切片内存视图而不是底层字节数组时,您保存在临时副本上。
您不能像考虑 C 或 C++ 那样考虑 Python。额外副本的常数因子开销远低于支持所有 Python 动态特性所涉及的常数因子开销,尤其是在 CPython 中没有 JIT 的情况下。一旦您考虑到您必须更改的其他内容以避免该副本,您就不能假设保存一个副本实际上会有所帮助。
在这种情况下,几乎所有的工作都在列表转换中。您保存的副本毫无意义。比较 b[i:]
和 list(b[i:])
的时间,您会发现即使切片执行复制,切片也只占运行时间的百分之几。
您保存的副本并不重要,因为它基本上只是一个 memcpy
。相比之下,列表转换需要在bytestring或memoryview上创建一个迭代器,重复调用迭代器的tp_iternext
槽,获取内存原始字节对应的int
对象等,这样就多了昂贵的。 memoryview 的代价更大,因为 memoryview 对象必须支持多维形状和非字节数据类型,并且因为 memoryview 实现没有专门的 __iter__
实现,所以它通过通用的基于序列的后备迭代,速度较慢。
您可以使用内存视图的 tolist
方法而不是调用 list
来节省一些时间。这跳过了一堆迭代协议开销,并允许一些检查只进行一次而不是每个项目一次。在我的测试中,这几乎与在字节串上调用 list
一样快。
鉴于 Python 的 memoryview
缓冲协议接口可以帮助减少制作临时数据副本的需要,我决定基于此对其进行快速测试 answer to this question.
import time
expressions = ['list(b[i:i+1000])',
'list(b[i:])',
'b[i:]'
]
size = 1000000
x = b'x'*size
mv = memoryview(x)
for e in expressions:
print(f"Expression: {e}")
for b in (x, mv):
l = len(b)
start = time.time()
for i in range(0, l, 1000):
eval(e)
end = time.time()
print(f"Size: {size}, {type(b).__name__}, time: {end-start}")
结果:
$ python c:\temp\test_memoryview.py
Expression: list(b[i:i+1000])
Size: 1000000, bytes, time: 0.021999597549438477
Size: 1000000, memoryview, time: 0.03600668907165527
Expression: list(b[i:])
Size: 1000000, bytes, time: 5.3010172843933105
Size: 1000000, memoryview, time: 11.202003479003906
Expression: b[i:]
Size: 1000000, bytes, time: 0.2990117073059082
Size: 1000000, memoryview, time: 0.006985902786254883
前两个结果似乎是一个令人惊讶的结果。 我知道调用列表将涉及数据的副本,但我认为当切片内存视图而不是底层字节数组时,您保存在临时副本上。
您不能像考虑 C 或 C++ 那样考虑 Python。额外副本的常数因子开销远低于支持所有 Python 动态特性所涉及的常数因子开销,尤其是在 CPython 中没有 JIT 的情况下。一旦您考虑到您必须更改的其他内容以避免该副本,您就不能假设保存一个副本实际上会有所帮助。
在这种情况下,几乎所有的工作都在列表转换中。您保存的副本毫无意义。比较 b[i:]
和 list(b[i:])
的时间,您会发现即使切片执行复制,切片也只占运行时间的百分之几。
您保存的副本并不重要,因为它基本上只是一个 memcpy
。相比之下,列表转换需要在bytestring或memoryview上创建一个迭代器,重复调用迭代器的tp_iternext
槽,获取内存原始字节对应的int
对象等,这样就多了昂贵的。 memoryview 的代价更大,因为 memoryview 对象必须支持多维形状和非字节数据类型,并且因为 memoryview 实现没有专门的 __iter__
实现,所以它通过通用的基于序列的后备迭代,速度较慢。
您可以使用内存视图的 tolist
方法而不是调用 list
来节省一些时间。这跳过了一堆迭代协议开销,并允许一些检查只进行一次而不是每个项目一次。在我的测试中,这几乎与在字节串上调用 list
一样快。