将二进制 (0|1) numpy 转换为整数或二进制字符串?
Convert binary (0|1) numpy to integer or binary-string?
是否有将二进制 (0|1) numpy 数组转换为整数或二进制字符串的快捷方式?
F.e.
b = np.array([0,0,0,0,0,1,0,1])
=> b is 5
np.packbits(b)
有效,但仅适用于 8 位值。如果 numpy 有 9 个或更多元素,它会生成 2 个或更多 8 位值。
另一种选择是 return 一串 0|1 ...
我目前做的是:
ba = bitarray()
ba.pack(b.astype(np.bool).tostring())
#convert from bitarray 0|1 to integer
result = int( ba.to01(), 2 )
太丑了!!!
一种方法是使用 dot-product
和 2-powered
范围数组 -
b.dot(2**np.arange(b.size)[::-1])
样本运行-
In [95]: b = np.array([1,0,1,0,0,0,0,0,1,0,1])
In [96]: b.dot(2**np.arange(b.size)[::-1])
Out[96]: 1285
或者,我们可以使用按位左移运算符来创建范围数组,从而获得所需的输出,就像这样 -
b.dot(1 << np.arange(b.size)[::-1])
如果对时间安排感兴趣 -
In [148]: b = np.random.randint(0,2,(50))
In [149]: %timeit b.dot(2**np.arange(b.size)[::-1])
100000 loops, best of 3: 13.1 µs per loop
In [150]: %timeit b.dot(1 << np.arange(b.size)[::-1])
100000 loops, best of 3: 7.92 µs per loop
逆向处理
要检索二进制数组,请使用 np.binary_repr
alongwith np.fromstring
-
In [96]: b = np.array([1,0,1,0,0,0,0,0,1,0,1])
In [97]: num = b.dot(2**np.arange(b.size)[::-1]) # integer
In [98]: np.fromstring(np.binary_repr(num), dtype='S1').astype(int)
Out[98]: array([1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1])
def binary_converter(arr):
total = 0
for index, val in enumerate(reversed(arr)):
total += (val * 2**index)
print total
In [14]: b = np.array([1,0,1,0,0,0,0,0,1,0,1])
In [15]: binary_converter(b)
1285
In [9]: b = np.array([0,0,0,0,0,1,0,1])
In [10]: binary_converter(b)
5
或
b = np.array([1,0,1,0,0,0,0,0,1,0,1])
sum(val * 2**index for index, val in enumerate(reversed(b)))
使用 numpy 进行转换会将您限制为 64 位带符号二进制结果。如果你真的想使用 numpy 并且 64 位限制对你有用,那么使用 numpy 的更快实现是:
import numpy as np
def bin2int(bits):
return np.right_shift(np.packbits(bits, -1), bits.size).squeeze()
因为通常情况下,如果您使用 numpy,您会关心速度,那么对于 > 64 位结果的最快实现是:
import gmpy2
def bin2int(bits):
return gmpy2.pack(list(bits[::-1]), 1)
如果你不想获取对 gmpy2 的依赖,这会有点慢,但没有依赖并且支持 > 64 位结果:
def bin2int(bits):
total = 0
for shift, j in enumerate(bits[::-1]):
if j:
total += 1 << shift
return total
细心的人会注意到上一版本与该问题的其他答案有一些相似之处,主要区别在于使用 << 运算符而不是 **,在我的测试中,这导致速度显着提高。
我通过使用向量化矩阵乘法代码将@Divikar 的良好点积解决方案扩展到 运行 ~180x 在我的主机上更快。在我的 pandas 数据框中 运行 一次一行一行的原始代码花费了大约 3 分钟的时间 运行 100K 行 18 列。好吧,下周我需要从 100K 行升级到 20M 行,所以大约 10 个小时的 运行ning 时间对我来说不够快。新代码首先是矢量化的。这是 python 代码中的真正变化。其次,matmult 通常 运行s 在你看不到的情况下并行运行,在多核处理器上取决于你的主机配置,特别是当 OpenBLAS 或其他 BLAS 存在时,numpy 可以像这个 matmult 一样在矩阵代数上使用。所以它可以使用很多处理器和内核,如果你有的话。
新的 - 非常简单 - 代码 运行s 100K 行 x 18 二进制列在我的主机上大约 1 秒 ET 对我来说是 "mission accomplished":
'''
Fast way is vectorized matmult. Pass in all rows and cols in one shot.
'''
def BitsToIntAFast(bits):
m,n = bits.shape # number of columns is needed, not bits.size
a = 2**np.arange(n)[::-1] # -1 reverses array of powers of 2 of same length as bits
return bits @ a # this matmult is the key line of code
'''I use it like this:'''
bits = d.iloc[:,4:(4+18)] # read bits from my pandas dataframe
gs = BitsToIntAFast(bits)
print(gs[:5])
gs.shape
...
d['genre'] = np.array(gs) # add the newly computed column to pandas
希望对您有所帮助。
我的计时结果:
b.dot(2**np.arange(b.size)[::-1])
100000 loops, best of 3: 2.48 usec per loop
b.dot(1 << np.arange(b.size)[::-1])
100000 loops, best of 3: 2.24 usec per loop
# Precompute powers-of-2 array with a = 1 << np.arange(b.size)[::-1]
b.dot(a)
100000 loops, best of 3: 0.553 usec per loop
# using gmpy2 is slower
gmpy2.pack(list(map(int,b[::-1])), 1)
100000 loops, best of 3: 10.6 usec per loop
因此,如果您提前知道大小,则预先计算 2 的幂数组会快得多。但是,如果可能的话,您应该像 Geoffrey Anderson 的回答中那样使用矩阵乘法同时进行所有计算。
是否有将二进制 (0|1) numpy 数组转换为整数或二进制字符串的快捷方式? F.e.
b = np.array([0,0,0,0,0,1,0,1])
=> b is 5
np.packbits(b)
有效,但仅适用于 8 位值。如果 numpy 有 9 个或更多元素,它会生成 2 个或更多 8 位值。 另一种选择是 return 一串 0|1 ...
我目前做的是:
ba = bitarray()
ba.pack(b.astype(np.bool).tostring())
#convert from bitarray 0|1 to integer
result = int( ba.to01(), 2 )
太丑了!!!
一种方法是使用 dot-product
和 2-powered
范围数组 -
b.dot(2**np.arange(b.size)[::-1])
样本运行-
In [95]: b = np.array([1,0,1,0,0,0,0,0,1,0,1])
In [96]: b.dot(2**np.arange(b.size)[::-1])
Out[96]: 1285
或者,我们可以使用按位左移运算符来创建范围数组,从而获得所需的输出,就像这样 -
b.dot(1 << np.arange(b.size)[::-1])
如果对时间安排感兴趣 -
In [148]: b = np.random.randint(0,2,(50))
In [149]: %timeit b.dot(2**np.arange(b.size)[::-1])
100000 loops, best of 3: 13.1 µs per loop
In [150]: %timeit b.dot(1 << np.arange(b.size)[::-1])
100000 loops, best of 3: 7.92 µs per loop
逆向处理
要检索二进制数组,请使用 np.binary_repr
alongwith np.fromstring
-
In [96]: b = np.array([1,0,1,0,0,0,0,0,1,0,1])
In [97]: num = b.dot(2**np.arange(b.size)[::-1]) # integer
In [98]: np.fromstring(np.binary_repr(num), dtype='S1').astype(int)
Out[98]: array([1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1])
def binary_converter(arr):
total = 0
for index, val in enumerate(reversed(arr)):
total += (val * 2**index)
print total
In [14]: b = np.array([1,0,1,0,0,0,0,0,1,0,1])
In [15]: binary_converter(b)
1285
In [9]: b = np.array([0,0,0,0,0,1,0,1])
In [10]: binary_converter(b)
5
或
b = np.array([1,0,1,0,0,0,0,0,1,0,1])
sum(val * 2**index for index, val in enumerate(reversed(b)))
使用 numpy 进行转换会将您限制为 64 位带符号二进制结果。如果你真的想使用 numpy 并且 64 位限制对你有用,那么使用 numpy 的更快实现是:
import numpy as np
def bin2int(bits):
return np.right_shift(np.packbits(bits, -1), bits.size).squeeze()
因为通常情况下,如果您使用 numpy,您会关心速度,那么对于 > 64 位结果的最快实现是:
import gmpy2
def bin2int(bits):
return gmpy2.pack(list(bits[::-1]), 1)
如果你不想获取对 gmpy2 的依赖,这会有点慢,但没有依赖并且支持 > 64 位结果:
def bin2int(bits):
total = 0
for shift, j in enumerate(bits[::-1]):
if j:
total += 1 << shift
return total
细心的人会注意到上一版本与该问题的其他答案有一些相似之处,主要区别在于使用 << 运算符而不是 **,在我的测试中,这导致速度显着提高。
我通过使用向量化矩阵乘法代码将@Divikar 的良好点积解决方案扩展到 运行 ~180x 在我的主机上更快。在我的 pandas 数据框中 运行 一次一行一行的原始代码花费了大约 3 分钟的时间 运行 100K 行 18 列。好吧,下周我需要从 100K 行升级到 20M 行,所以大约 10 个小时的 运行ning 时间对我来说不够快。新代码首先是矢量化的。这是 python 代码中的真正变化。其次,matmult 通常 运行s 在你看不到的情况下并行运行,在多核处理器上取决于你的主机配置,特别是当 OpenBLAS 或其他 BLAS 存在时,numpy 可以像这个 matmult 一样在矩阵代数上使用。所以它可以使用很多处理器和内核,如果你有的话。
新的 - 非常简单 - 代码 运行s 100K 行 x 18 二进制列在我的主机上大约 1 秒 ET 对我来说是 "mission accomplished":
'''
Fast way is vectorized matmult. Pass in all rows and cols in one shot.
'''
def BitsToIntAFast(bits):
m,n = bits.shape # number of columns is needed, not bits.size
a = 2**np.arange(n)[::-1] # -1 reverses array of powers of 2 of same length as bits
return bits @ a # this matmult is the key line of code
'''I use it like this:'''
bits = d.iloc[:,4:(4+18)] # read bits from my pandas dataframe
gs = BitsToIntAFast(bits)
print(gs[:5])
gs.shape
...
d['genre'] = np.array(gs) # add the newly computed column to pandas
希望对您有所帮助。
我的计时结果:
b.dot(2**np.arange(b.size)[::-1])
100000 loops, best of 3: 2.48 usec per loop
b.dot(1 << np.arange(b.size)[::-1])
100000 loops, best of 3: 2.24 usec per loop
# Precompute powers-of-2 array with a = 1 << np.arange(b.size)[::-1]
b.dot(a)
100000 loops, best of 3: 0.553 usec per loop
# using gmpy2 is slower
gmpy2.pack(list(map(int,b[::-1])), 1)
100000 loops, best of 3: 10.6 usec per loop
因此,如果您提前知道大小,则预先计算 2 的幂数组会快得多。但是,如果可能的话,您应该像 Geoffrey Anderson 的回答中那样使用矩阵乘法同时进行所有计算。