动态规范化 2D numpy 数组
Dynamically normalise 2D numpy array
我有一个形状为 (100000, 1024) 的二维 numpy 数组“信号”。每行包含信号幅度的轨迹,我想将其归一化为在 0-1 范围内。
每个信号都有不同的幅度,所以我不能只除以一个公因数,所以我想知道是否有办法对每个信号进行归一化,使它们中的每个值都在 0-1 之间?
假设信号看起来像 [[0,1,2,3,5,8,2,1],[0,2,5,10,7,4,2,1]]我希望它们成为 [[0.125,0.25,0.375,0.625,1,0.25,0.125],[0,0.2,0.5,0.7,0.4,0.2,0.1]].
有没有办法不用遍历所有 100,000 个信号就可以做到这一点,因为这肯定会很慢?
谢谢!
简单的做法是生成一个新的 numpy 数组,其中最大值按轴并除以它:
import numpy as np
a = np.array([[0,1,2,3,5,8,2,1],[0,2,5,10,7,4,2,1]])
b = np.max(a, axis = 1)
print(a / b[:,np.newaxis])
输出:
[[0. 0.125 0.25 0.375 0.625 1. 0.25 0.125]
[0. 0.2 0.5 1. 0.7 0.4 0.2 0.1 ]]
添加一点基准以显示两种解决方案之间的性能差异有多大:
import numpy as np
import timeit
arr = np.arange(1024).reshape(128,8)
def using_list_comp():
return np.array([s/np.max(s) for s in arr])
def using_vectorized_max_div():
return arr/arr.max(axis=1)[:, np.newaxis]
result1 = using_list_comp()
result2 = using_vectorized_max_div()
print("Results equal:", (result1==result2).all())
time1 = timeit.timeit('using_list_comp()', globals=globals(), number=1000)
time2 = timeit.timeit('using_vectorized_max_div()', globals=globals(), number=1000)
print(time1)
print(time2)
print(time1/time2)
在我的机器上输出是:
Results equal: True
0.9873569
0.010177099999999939
97.01750989967731
几乎是 100 倍 的差异!
另一个解决方案是使用 normalize
:
from sklearn.preprocessing import normalize
data = [[0,1,2,3,5,8,2,1],[0,2,5,10,7,4,2,1]]
normalize(data, axis=1, norm='max')
结果:
array([[0. , 0.125, 0.25 , 0.375, 0.625, 1. , 0.25 , 0.125],
[0. , 0.2 , 0.5 , 1. , 0.7 , 0.4 , 0.2 , 0.1 ]])
请注意 norm='max'
参数。默认值为 'l2'.
我有一个形状为 (100000, 1024) 的二维 numpy 数组“信号”。每行包含信号幅度的轨迹,我想将其归一化为在 0-1 范围内。
每个信号都有不同的幅度,所以我不能只除以一个公因数,所以我想知道是否有办法对每个信号进行归一化,使它们中的每个值都在 0-1 之间?
假设信号看起来像 [[0,1,2,3,5,8,2,1],[0,2,5,10,7,4,2,1]]我希望它们成为 [[0.125,0.25,0.375,0.625,1,0.25,0.125],[0,0.2,0.5,0.7,0.4,0.2,0.1]].
有没有办法不用遍历所有 100,000 个信号就可以做到这一点,因为这肯定会很慢?
谢谢!
简单的做法是生成一个新的 numpy 数组,其中最大值按轴并除以它:
import numpy as np
a = np.array([[0,1,2,3,5,8,2,1],[0,2,5,10,7,4,2,1]])
b = np.max(a, axis = 1)
print(a / b[:,np.newaxis])
输出:
[[0. 0.125 0.25 0.375 0.625 1. 0.25 0.125]
[0. 0.2 0.5 1. 0.7 0.4 0.2 0.1 ]]
添加一点基准以显示两种解决方案之间的性能差异有多大:
import numpy as np
import timeit
arr = np.arange(1024).reshape(128,8)
def using_list_comp():
return np.array([s/np.max(s) for s in arr])
def using_vectorized_max_div():
return arr/arr.max(axis=1)[:, np.newaxis]
result1 = using_list_comp()
result2 = using_vectorized_max_div()
print("Results equal:", (result1==result2).all())
time1 = timeit.timeit('using_list_comp()', globals=globals(), number=1000)
time2 = timeit.timeit('using_vectorized_max_div()', globals=globals(), number=1000)
print(time1)
print(time2)
print(time1/time2)
在我的机器上输出是:
Results equal: True
0.9873569
0.010177099999999939
97.01750989967731
几乎是 100 倍 的差异!
另一个解决方案是使用 normalize
:
from sklearn.preprocessing import normalize
data = [[0,1,2,3,5,8,2,1],[0,2,5,10,7,4,2,1]]
normalize(data, axis=1, norm='max')
结果:
array([[0. , 0.125, 0.25 , 0.375, 0.625, 1. , 0.25 , 0.125],
[0. , 0.2 , 0.5 , 1. , 0.7 , 0.4 , 0.2 , 0.1 ]])
请注意 norm='max'
参数。默认值为 'l2'.