映射二维 numpy 数组中列内容的优化方法
Optimized method for mapping contents of a column in a 2D numpy array
我有一个包含 0 到 100 之间整数的 numpy 二维数组。对于特定列,我想按以下方式映射值:
0-4 mapped to 0
5-9 mapped to 5
10-14 mapped to 10, and so on.
这是我的代码:
import numpy as np
@profile
def map_column(arr,col,incr):
col_data = arr[:,col]
vec = np.arange(0,100,incr)
for i in range(col_data.shape[0]):
for j in range(len(vec)-1):
if (col_data[i]>=vec[j] and col_data[i]<vec[j+1]):
col_data[i] = vec[j]
if (col_data[i]>vec[-1]):
col_data[i] = vec[-1]
return col_data
np.random.seed(1)
myarr = np.random.randint(100,size=(80000,4))
x = map_column(myarr,2,5)
此代码需要 8.3 秒才能 运行。以下是 运行ning line_profiler 在此代码上的输出。
Timer unit: 1e-06 s
Total time: 8.32155 s
File: testcode2.py
Function: map_column at line 2
Line # Hits Time Per Hit % Time Line Contents
==============================================================
2 @profile
3 def map_column(arr,col,incr):
4 1 17.0 17.0 0.0 col_data = arr[:,col]
5 1 34.0 34.0 0.0 vec = np.arange(0,100,incr)
6 80001 139232.0 1.7 1.7 for i in range(col_data.shape[0]):
7 1600000 2778636.0 1.7 33.4 for j in range(len(vec)-1):
8 1520000 4965687.0 3.3 59.7 if (col_data[i]>=vec[j] and col_data[i]<vec[j+1]):
9 76062 207492.0 2.7 2.5 col_data[i] = vec[j]
10 80000 221693.0 2.8 2.7 if (col_data[i]>vec[-1]):
11 3156 8761.0 2.8 0.1 col_data[i] = vec[-1]
12 1 2.0 2.0 0.0 return col_data
将来我必须处理比这个大得多的真实数据。
谁能建议一个更快的方法来做到这一点?
我觉得这个问题可以用算术表达式来解决,如果我理解正确的话:
def map_column(arr,col,incr):
col_data = arr[:,col]
return (col_data//incr)*incr
应该可以解决问题。这里发生的是,由于整数除法,余数被丢弃。因此,再次乘以增量,您将得到下一个可被增量整除的较小数字。
我有一个包含 0 到 100 之间整数的 numpy 二维数组。对于特定列,我想按以下方式映射值:
0-4 mapped to 0
5-9 mapped to 5
10-14 mapped to 10, and so on.
这是我的代码:
import numpy as np
@profile
def map_column(arr,col,incr):
col_data = arr[:,col]
vec = np.arange(0,100,incr)
for i in range(col_data.shape[0]):
for j in range(len(vec)-1):
if (col_data[i]>=vec[j] and col_data[i]<vec[j+1]):
col_data[i] = vec[j]
if (col_data[i]>vec[-1]):
col_data[i] = vec[-1]
return col_data
np.random.seed(1)
myarr = np.random.randint(100,size=(80000,4))
x = map_column(myarr,2,5)
此代码需要 8.3 秒才能 运行。以下是 运行ning line_profiler 在此代码上的输出。
Timer unit: 1e-06 s
Total time: 8.32155 s
File: testcode2.py
Function: map_column at line 2
Line # Hits Time Per Hit % Time Line Contents
==============================================================
2 @profile
3 def map_column(arr,col,incr):
4 1 17.0 17.0 0.0 col_data = arr[:,col]
5 1 34.0 34.0 0.0 vec = np.arange(0,100,incr)
6 80001 139232.0 1.7 1.7 for i in range(col_data.shape[0]):
7 1600000 2778636.0 1.7 33.4 for j in range(len(vec)-1):
8 1520000 4965687.0 3.3 59.7 if (col_data[i]>=vec[j] and col_data[i]<vec[j+1]):
9 76062 207492.0 2.7 2.5 col_data[i] = vec[j]
10 80000 221693.0 2.8 2.7 if (col_data[i]>vec[-1]):
11 3156 8761.0 2.8 0.1 col_data[i] = vec[-1]
12 1 2.0 2.0 0.0 return col_data
将来我必须处理比这个大得多的真实数据。 谁能建议一个更快的方法来做到这一点?
我觉得这个问题可以用算术表达式来解决,如果我理解正确的话:
def map_column(arr,col,incr):
col_data = arr[:,col]
return (col_data//incr)*incr
应该可以解决问题。这里发生的是,由于整数除法,余数被丢弃。因此,再次乘以增量,您将得到下一个可被增量整除的较小数字。