python pandas groupby计算变化
python pandas groupby calculate change
我想按组计算值变化
这是 python pandas 数据帧 df 我有:
Group | Date | Value
A 01-02-2016 16
A 01-03-2016 15
A 01-04-2016 14
A 01-05-2016 17
A 01-06-2016 19
A 01-07-2016 20
B 01-02-2016 16
B 01-03-2016 13
B 01-04-2016 13
C 01-02-2016 16
C 01-03-2016 16
我想计算 A 组的值在上升,B 组的值在下降,而 C 组的值没有变化。
我不确定如何处理它,因为在 A 组中,值先下降然后上升。那么我应该查看平均变化还是最近的变化?
我应该使用 pct_change 吗? http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.pct_change.html 我不确定如何指定时间范围。
df.groupby.pct_change
要是我也能观想就好了。非常感谢任何建议或提示!谢谢
在 groupby
中使用 pct_change
d1 = df.set_index(['Date', 'Group']).Value
d2 = d1.groupby(level='Group').pct_change()
print(d2)
Date Group
2016-01-02 A NaN
2016-01-03 A -0.062500
2016-01-04 A -0.066667
2016-01-05 A 0.214286
2016-01-06 A 0.117647
2016-01-07 A 0.052632
2016-01-02 B NaN
2016-01-03 B -0.187500
2016-01-04 B 0.000000
2016-01-02 C NaN
2016-01-03 C 0.000000
Name: Value, dtype: float64
可视化和比较的众多方法之一是查看它们的生长情况。在这种情况下,我会
fillna(0)
add(1)
cumprod()
d2.fillna(0).add(1).cumprod().unstack().plot()
设置
from io import StringIO
import pandas as pd
txt = """Group Date Value
A 01-02-2016 16
A 01-03-2016 15
A 01-04-2016 14
A 01-05-2016 17
A 01-06-2016 19
A 01-07-2016 20
B 01-02-2016 16
B 01-03-2016 13
B 01-04-2016 13
C 01-02-2016 16
C 01-03-2016 16 """
df = pd.read_clipboard(parse_dates=[1])
我想按组计算值变化
这是 python pandas 数据帧 df 我有:
Group | Date | Value
A 01-02-2016 16
A 01-03-2016 15
A 01-04-2016 14
A 01-05-2016 17
A 01-06-2016 19
A 01-07-2016 20
B 01-02-2016 16
B 01-03-2016 13
B 01-04-2016 13
C 01-02-2016 16
C 01-03-2016 16
我想计算 A 组的值在上升,B 组的值在下降,而 C 组的值没有变化。
我不确定如何处理它,因为在 A 组中,值先下降然后上升。那么我应该查看平均变化还是最近的变化?
我应该使用 pct_change 吗? http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.pct_change.html 我不确定如何指定时间范围。
df.groupby.pct_change
要是我也能观想就好了。非常感谢任何建议或提示!谢谢
在 groupby
pct_change
d1 = df.set_index(['Date', 'Group']).Value
d2 = d1.groupby(level='Group').pct_change()
print(d2)
Date Group
2016-01-02 A NaN
2016-01-03 A -0.062500
2016-01-04 A -0.066667
2016-01-05 A 0.214286
2016-01-06 A 0.117647
2016-01-07 A 0.052632
2016-01-02 B NaN
2016-01-03 B -0.187500
2016-01-04 B 0.000000
2016-01-02 C NaN
2016-01-03 C 0.000000
Name: Value, dtype: float64
可视化和比较的众多方法之一是查看它们的生长情况。在这种情况下,我会
fillna(0)
add(1)
cumprod()
d2.fillna(0).add(1).cumprod().unstack().plot()
设置
from io import StringIO
import pandas as pd
txt = """Group Date Value
A 01-02-2016 16
A 01-03-2016 15
A 01-04-2016 14
A 01-05-2016 17
A 01-06-2016 19
A 01-07-2016 20
B 01-02-2016 16
B 01-03-2016 13
B 01-04-2016 13
C 01-02-2016 16
C 01-03-2016 16 """
df = pd.read_clipboard(parse_dates=[1])