pandas numpy如何简化多个向量化函数参数

Question

我有一个df，你可以通过运行这个代码：

import numpy as np
import pandas as pd
from io import StringIO
dfs = """
    M0     M1   M2  M3 M4   M5 age
1   1      2    3    4  5    6  3.2        
2   7      5    4    5  8    3  4.5
3   4      8    9    3  5    2  6.7
"""
df = pd.read_csv(StringIO(dfs.strip()), sep='\s+', )

并且基于业务逻辑我有以下功能，输出也是我所期望的：

def func(M0,M1,M2,M3,M4,M5,age):
    newcol=np.prod([M0,M1,M2,M3,M4,M5][0:age])
    return newcol

vfunc = np.frompyfunc(func, 7, 1)
df['newcol']=vfunc(df['M0'].values,df['M1'].values,df['M2'].values,df['M3'].values,df['M4'].values,df['M5'].values,df['age'].values.astype(int))

df

输出为：

M0  M1  M2  M3  M4  M5  age newcol
1   1   2   3   4   5   6   3.2 6
2   7   5   4   5   8   3   4.5 700
3   4   8   9   3   5   2   6.7 8640

问题是这里的参数太多了 def func(M0,M1,M2,M3,M4,M5,age), 无论如何我可以把这些参数做成一个列表或其他东西来实现这个功能更干净？

我试过了：

def func(df):
    newcol=np.prod
    ([df['M0'].values,df['M1'].values,df['M2'].values,df['M3'].values,df['M4'].values,df['M5'].values][0:df['age'].values.astype(int)])
    return newcol

vfunc = np.frompyfunc(func,1, 1)
df['newcol']=vfunc(df)

错误：

TypeError: 'float' object is not subscriptable

请注意 我不使用 pd.apply() 的原因是因为在我的实际业务中数据非常大并且 pd.apply( )运行非常慢。

Answer 1

虽然没有优化，但至少在选择M列方面可以提高可读性，虽然它有一个额外的功能：

M=["M0","M1","M2","M3","M4","M5"]

def func2(df, M):
    return [df[i].values for i in M] 

def func(age,*Ms):
    newcol=np.prod(Ms[0:age])
    return newcol

vfunc = np.frompyfunc(func, len(M)+1, 1)

df['newcol']=vfunc(df['age'].values.astype(int), *func2(df,M))

df

pandas numpy如何简化多个向量化函数参数

pandas numpy how simplify multiple vectorized function parameters

python

numpy

vectorization

pandas

numpy-ndarray