加快 python 的 struct.unpack
Speed up python's struct.unpack
我正在尝试加快我的脚本。它主要读取包含 Velodyne 激光雷达 HDL-32 信息的 pcap 文件,并允许我获取 X、Y、Z 和强度值。我使用 python -m cProfile ./spTestPcapToLas.py
分析了我的脚本,它在我的 readDataPacket()
函数调用中花费了最多的时间。在一个小型测试(80 MB 文件)中,解包部分占用了大约 56% 的执行时间。
我这样调用readDataPacket
函数(chunk
指的是pcap文件):
packets = []
for packet in chunk:
memoryView = memoryview(packet.raw())
udpDestinationPort = unpack('!h', memoryView[36:38].tobytes())[0]
if udpDestinationPort == 2368:
packets += readDataPacket(memoryView)
readDataPacket()
函数本身是这样定义的:
def readDataPacket(memoryView):
firingData = memoryView[42:]
firingDataStartingByte = 0
laserBlock = []
for i in xrange(firingBlocks):
rotational = unpack('<H', firingData[firingDataStartingByte+2:firingDataStartingByte+4])[0]
startingByte = firingDataStartingByte+4
laser = []
for j in xrange(lasers):
distanceInformation = unpack('<H', firingData[startingByte:(startingByte + 2)])[0] * 0.002
intensity = unpack('<B', firingData[(startingByte + 2)])[0]
laser.append([distanceInformation, intensity])
startingByte += 3
firingDataStartingByte += 100
laserBlock.append([rotational, laser])
return laserBlock
关于如何加快这个过程有什么想法吗?顺便说一句,我正在使用 numpy 进行 X、Y、Z、强度计算。
您可以在一次调用中将原始 distanceInformation
和 intensity
值一起解包。特别是因为您只是将它们一起放入一个列表中:这就是 unpack()
在解包多个值时所做的。在您的情况下,您需要将 distanceInformation
乘以 0.002
,但您可以将其保留到稍后再节省时间,因为您可以使用 iter_unpack()
to parse the whole list of raw pairs in one call. That function gives you a generator, which can be sliced with itertools.islice()
然后变成列表。像这样:
laser_iter = struct.iter_unpack('<HB', firingData[firingDataStartingByte + 4])
laser = [[d * 0.002, i] for d, i in itertools.islice(laser_iter, lasers)]
不幸的是,这有点难以阅读,因此您可能想找到一种方法将其展开到更多代码行中,使用更具描述性的变量名称,或者在您忘记为什么要添加注释时添加注释写了这个…
提前编译Struct
,以避免使用模块级方法的Python级包装代码。在循环外做,所以不会重复支付建设成本。
unpack_ushort = struct.Struct('<H').unpack
unpack_ushort_byte = struct.Struct('<HB').unpack
Struct
方法本身是在 CPython 中用 C 实现的(模块级方法在解析格式字符串后最终委托给相同的工作),因此构建 Struct
一次并存储绑定方法可以节省大量工作,尤其是在解包少量值时。
您还可以通过将多个值一起解包而不是一次一个解包来节省一些工作:
distanceInformation, intensity = unpack_ushort_byte(firingData[startingByte:startingByte + 3])
distanceInformation *= 0.002
与一样,您可以使用iter_unpack
进一步改进这一点,这将进一步减少字节码执行量和小切片操作。
Numpy 让您可以非常快速地完成这项工作。在这种情况下,我认为最简单的方法是直接使用 ndarray
构造函数:
import numpy as np
def with_numpy(buffer):
# Construct ndarray with: shape, dtype, buffer, offset, strides.
rotational = np.ndarray((firingBlocks,), '<H', buffer, 42+2, (100,))
distance = np.ndarray((firingBlocks,lasers), '<H', buffer, 42+4, (100,3))
intensity = np.ndarray((firingBlocks,lasers), '<B', buffer, 42+6, (100,3))
return rotational, distance*0.002, intensity
这 returns 分隔数组而不是嵌套列表,这应该更容易进一步处理。作为输入,它需要一个 buffer
对象(在 Python 2 中)或任何公开缓冲区接口的对象。不幸的是,这取决于您的 Python 版本 (2/3) 您可以使用哪些对象。但是这个方法很快:
import numpy as np
firingBlocks = 10**4
lasers = 32
packet_raw = np.random.bytes(42 + firingBlocks*100)
%timeit readDataPacket(memoryview(packet_raw))
# 1 loop, best of 3: 807 ms per loop
%timeit with_numpy(packet_raw)
# 100 loops, best of 3: 10.8 ms per loop
对于您的具体情况,如果您可以将循环放入 numpy 调用中,那将是最快的。
话虽如此,对于 struct.unpack
部分——如果您的数据恰好符合本机字节顺序,您可以使用 memoryview.cast
。对于一个 short
示例,它比原始 struct.unpack
快 3 倍左右,逻辑没有任何变化。
In [20]: st = struct.Struct("<H")
In [21]: %timeit struct.unpack("<H", buf[20:22])
1.45 µs ± 26.5 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
In [22]: %timeit st.unpack(buf[20:22])
778 ns ± 10.8 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
In [23]: %timeit buf.cast("H")[0]
447 ns ± 4.16 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
我正在尝试加快我的脚本。它主要读取包含 Velodyne 激光雷达 HDL-32 信息的 pcap 文件,并允许我获取 X、Y、Z 和强度值。我使用 python -m cProfile ./spTestPcapToLas.py
分析了我的脚本,它在我的 readDataPacket()
函数调用中花费了最多的时间。在一个小型测试(80 MB 文件)中,解包部分占用了大约 56% 的执行时间。
我这样调用readDataPacket
函数(chunk
指的是pcap文件):
packets = []
for packet in chunk:
memoryView = memoryview(packet.raw())
udpDestinationPort = unpack('!h', memoryView[36:38].tobytes())[0]
if udpDestinationPort == 2368:
packets += readDataPacket(memoryView)
readDataPacket()
函数本身是这样定义的:
def readDataPacket(memoryView):
firingData = memoryView[42:]
firingDataStartingByte = 0
laserBlock = []
for i in xrange(firingBlocks):
rotational = unpack('<H', firingData[firingDataStartingByte+2:firingDataStartingByte+4])[0]
startingByte = firingDataStartingByte+4
laser = []
for j in xrange(lasers):
distanceInformation = unpack('<H', firingData[startingByte:(startingByte + 2)])[0] * 0.002
intensity = unpack('<B', firingData[(startingByte + 2)])[0]
laser.append([distanceInformation, intensity])
startingByte += 3
firingDataStartingByte += 100
laserBlock.append([rotational, laser])
return laserBlock
关于如何加快这个过程有什么想法吗?顺便说一句,我正在使用 numpy 进行 X、Y、Z、强度计算。
您可以在一次调用中将原始 distanceInformation
和 intensity
值一起解包。特别是因为您只是将它们一起放入一个列表中:这就是 unpack()
在解包多个值时所做的。在您的情况下,您需要将 distanceInformation
乘以 0.002
,但您可以将其保留到稍后再节省时间,因为您可以使用 iter_unpack()
to parse the whole list of raw pairs in one call. That function gives you a generator, which can be sliced with itertools.islice()
然后变成列表。像这样:
laser_iter = struct.iter_unpack('<HB', firingData[firingDataStartingByte + 4])
laser = [[d * 0.002, i] for d, i in itertools.islice(laser_iter, lasers)]
不幸的是,这有点难以阅读,因此您可能想找到一种方法将其展开到更多代码行中,使用更具描述性的变量名称,或者在您忘记为什么要添加注释时添加注释写了这个…
提前编译Struct
,以避免使用模块级方法的Python级包装代码。在循环外做,所以不会重复支付建设成本。
unpack_ushort = struct.Struct('<H').unpack
unpack_ushort_byte = struct.Struct('<HB').unpack
Struct
方法本身是在 CPython 中用 C 实现的(模块级方法在解析格式字符串后最终委托给相同的工作),因此构建 Struct
一次并存储绑定方法可以节省大量工作,尤其是在解包少量值时。
您还可以通过将多个值一起解包而不是一次一个解包来节省一些工作:
distanceInformation, intensity = unpack_ushort_byte(firingData[startingByte:startingByte + 3])
distanceInformation *= 0.002
与iter_unpack
进一步改进这一点,这将进一步减少字节码执行量和小切片操作。
Numpy 让您可以非常快速地完成这项工作。在这种情况下,我认为最简单的方法是直接使用 ndarray
构造函数:
import numpy as np
def with_numpy(buffer):
# Construct ndarray with: shape, dtype, buffer, offset, strides.
rotational = np.ndarray((firingBlocks,), '<H', buffer, 42+2, (100,))
distance = np.ndarray((firingBlocks,lasers), '<H', buffer, 42+4, (100,3))
intensity = np.ndarray((firingBlocks,lasers), '<B', buffer, 42+6, (100,3))
return rotational, distance*0.002, intensity
这 returns 分隔数组而不是嵌套列表,这应该更容易进一步处理。作为输入,它需要一个 buffer
对象(在 Python 2 中)或任何公开缓冲区接口的对象。不幸的是,这取决于您的 Python 版本 (2/3) 您可以使用哪些对象。但是这个方法很快:
import numpy as np
firingBlocks = 10**4
lasers = 32
packet_raw = np.random.bytes(42 + firingBlocks*100)
%timeit readDataPacket(memoryview(packet_raw))
# 1 loop, best of 3: 807 ms per loop
%timeit with_numpy(packet_raw)
# 100 loops, best of 3: 10.8 ms per loop
对于您的具体情况,如果您可以将循环放入 numpy 调用中,那将是最快的。
话虽如此,对于 struct.unpack
部分——如果您的数据恰好符合本机字节顺序,您可以使用 memoryview.cast
。对于一个 short
示例,它比原始 struct.unpack
快 3 倍左右,逻辑没有任何变化。
In [20]: st = struct.Struct("<H")
In [21]: %timeit struct.unpack("<H", buf[20:22])
1.45 µs ± 26.5 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
In [22]: %timeit st.unpack(buf[20:22])
778 ns ± 10.8 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
In [23]: %timeit buf.cast("H")[0]
447 ns ± 4.16 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)