我可以动态选择应用于 pandas 重采样器对象的方法吗?
Can I dynamically choose the method applied on a pandas Resampler object?
我正在尝试创建一个对 pandas
中的时间序列数据进行重采样的函数。我希望可以选择根据我发送的数据类型指定发生的聚合类型(即对于某些数据,取每个 bin 的总和是合适的,而对于其他数据,需要取平均值, ETC。)。例如像这样的数据:
import pandas as pd
import numpy as np
dr = pd.date_range('01-01-2020', '01-03-2020', freq='1H')
df = pd.DataFrame(np.random.rand(len(dr)), index=dr)
我可以有这样的功能:
def process(df, freq='3H', method='sum'):
r = df.resample(freq)
if method == 'sum':
r = r.sum()
elif method == 'mean':
r = r.mean()
#...
#more options
#...
return r
对于少量的聚合方法,这很好,但如果我想从 all of the possible choices.
select 看起来可能会很乏味
我希望使用 getattr
来实现 something like this post(在“让它工作:泛化方法调用”下)。但是,我找不到这样做的方法:
def process2(df, freq='3H', method='sum'):
r = df.resample(freq)
foo = getattr(r, method)
return r.foo()
#fails with:
#AttributeError: 'DatetimeIndexResampler' object has no attribute 'foo'
def process3(df, freq='3H', method='sum'):
r = df.resample(freq)
foo = getattr(r, method)
return foo(r)
#fails with:
#TypeError: __init__() missing 1 required positional argument: 'obj'
我明白为什么 process2
失败了(调用 r.foo()
查找 r
的方法 foo()
,而不是变量 foo
)。但我不明白为什么 process3
会失败。
我知道另一种方法是将函数传递给参数 method
,然后 apply
将那些函数传递给 r
。我的倾向是这会降低效率吗?而且它仍然不允许我直接访问内置的 Resample 方法。
是否有更简洁的工作方式来实现这一目标?谢谢!
尝试.resample().apply(method)
但是除非您打算在函数内部进行更多计算,否则 hard-code 这一行可能会更容易。
我正在尝试创建一个对 pandas
中的时间序列数据进行重采样的函数。我希望可以选择根据我发送的数据类型指定发生的聚合类型(即对于某些数据,取每个 bin 的总和是合适的,而对于其他数据,需要取平均值, ETC。)。例如像这样的数据:
import pandas as pd
import numpy as np
dr = pd.date_range('01-01-2020', '01-03-2020', freq='1H')
df = pd.DataFrame(np.random.rand(len(dr)), index=dr)
我可以有这样的功能:
def process(df, freq='3H', method='sum'):
r = df.resample(freq)
if method == 'sum':
r = r.sum()
elif method == 'mean':
r = r.mean()
#...
#more options
#...
return r
对于少量的聚合方法,这很好,但如果我想从 all of the possible choices.
select 看起来可能会很乏味我希望使用 getattr
来实现 something like this post(在“让它工作:泛化方法调用”下)。但是,我找不到这样做的方法:
def process2(df, freq='3H', method='sum'):
r = df.resample(freq)
foo = getattr(r, method)
return r.foo()
#fails with:
#AttributeError: 'DatetimeIndexResampler' object has no attribute 'foo'
def process3(df, freq='3H', method='sum'):
r = df.resample(freq)
foo = getattr(r, method)
return foo(r)
#fails with:
#TypeError: __init__() missing 1 required positional argument: 'obj'
我明白为什么 process2
失败了(调用 r.foo()
查找 r
的方法 foo()
,而不是变量 foo
)。但我不明白为什么 process3
会失败。
我知道另一种方法是将函数传递给参数 method
,然后 apply
将那些函数传递给 r
。我的倾向是这会降低效率吗?而且它仍然不允许我直接访问内置的 Resample 方法。
是否有更简洁的工作方式来实现这一目标?谢谢!
尝试.resample().apply(method)
但是除非您打算在函数内部进行更多计算,否则 hard-code 这一行可能会更容易。