Pandas 数据帧向前填充衰减
Pandas dataframe forward-fill with decay
我是 运行 Python 3.5,Pandas v 0.19.2。我有一个如下所示的数据框。前向填充缺失值很简单。
import pandas as pd
import numpy as np
d = {'A': np.array([10, np.nan, np.nan, -3, np.nan, 4, np.nan, 0]),
'B': np.array([np.nan, np.nan, 5, -3, np.nan, np.nan, 0, np.nan ])}
df = pd.DataFrame(d)
df_filled = df.fillna(axis='index', method='ffill')
print(df_filled)
Out[8]:
A B
0 10.0 NaN
1 10.0 NaN
2 10.0 5.0
3 -3.0 -3.0
4 -3.0 -3.0
5 4.0 -3.0
6 4.0 0.0
7 0.0 0.0
我的问题是:实施衰减前向填充的最佳方法是什么?我明白 pd.ffill()
和 pd.fillna()
不支持这个。例如,我所追求的输出如下(与上面的常规 ffill 形成对比),其中每个周期的值结转一半:
Out[5]:
A B
0 10.0 NaN
1 5.0 NaN
2 2.5 5.0
3 -3.0 -3.0
4 -1.5 -1.5
5 4.0 -0.75
6 2.0 0.0
7 0.0 0.0
是的,没有简单的方法可以做到这一点。我建议使用 groupby
和 apply
.
一次做一栏
for c in df:
df[c] = df[c].groupby(df[c].notnull().cumsum()).apply(
lambda y: y.ffill() / 2 ** np.arange(len(y))
)
df
A B
0 10.0 NaN
1 5.0 NaN
2 2.5 5.00
3 -3.0 -3.00
4 -1.5 -1.50
5 4.0 -0.75
6 2.0 0.00
7 0.0 0.00
有一个矢量解。它部分使用了这个
import pandas as pd
import numpy as np
d = {'A': np.array([10, np.nan, np.nan, -3, np.nan, 4, np.nan, 0]),
'B': np.array([np.nan, np.nan, 5, -3, np.nan, np.nan, 0, np.nan ])}
df = pd.DataFrame(d)
decay_rate = 2
ddf = df.isnull().cumsum().diff().fillna(0)
ddf = ddf!=0
ddf = ddf.cumsum() - ddf.cumsum()\
.where(~ddf)\
.ffill()\
.fillna(0)
df_filled = df.ffill()/(ddf * decay_rate).replace(0, 1)
编辑:在我的实验中,这个解决方案比另一个快 1.8 倍。将结果与完整的 df
.
进行比较应该很有趣
我是 运行 Python 3.5,Pandas v 0.19.2。我有一个如下所示的数据框。前向填充缺失值很简单。
import pandas as pd
import numpy as np
d = {'A': np.array([10, np.nan, np.nan, -3, np.nan, 4, np.nan, 0]),
'B': np.array([np.nan, np.nan, 5, -3, np.nan, np.nan, 0, np.nan ])}
df = pd.DataFrame(d)
df_filled = df.fillna(axis='index', method='ffill')
print(df_filled)
Out[8]:
A B
0 10.0 NaN
1 10.0 NaN
2 10.0 5.0
3 -3.0 -3.0
4 -3.0 -3.0
5 4.0 -3.0
6 4.0 0.0
7 0.0 0.0
我的问题是:实施衰减前向填充的最佳方法是什么?我明白 pd.ffill()
和 pd.fillna()
不支持这个。例如,我所追求的输出如下(与上面的常规 ffill 形成对比),其中每个周期的值结转一半:
Out[5]:
A B
0 10.0 NaN
1 5.0 NaN
2 2.5 5.0
3 -3.0 -3.0
4 -1.5 -1.5
5 4.0 -0.75
6 2.0 0.0
7 0.0 0.0
是的,没有简单的方法可以做到这一点。我建议使用 groupby
和 apply
.
for c in df:
df[c] = df[c].groupby(df[c].notnull().cumsum()).apply(
lambda y: y.ffill() / 2 ** np.arange(len(y))
)
df
A B
0 10.0 NaN
1 5.0 NaN
2 2.5 5.00
3 -3.0 -3.00
4 -1.5 -1.50
5 4.0 -0.75
6 2.0 0.00
7 0.0 0.00
有一个矢量解。它部分使用了这个
import pandas as pd
import numpy as np
d = {'A': np.array([10, np.nan, np.nan, -3, np.nan, 4, np.nan, 0]),
'B': np.array([np.nan, np.nan, 5, -3, np.nan, np.nan, 0, np.nan ])}
df = pd.DataFrame(d)
decay_rate = 2
ddf = df.isnull().cumsum().diff().fillna(0)
ddf = ddf!=0
ddf = ddf.cumsum() - ddf.cumsum()\
.where(~ddf)\
.ffill()\
.fillna(0)
df_filled = df.ffill()/(ddf * decay_rate).replace(0, 1)
编辑:在我的实验中,这个解决方案比另一个快 1.8 倍。将结果与完整的 df
.