如何从 pandas 多索引中获取随机 (bootstrap) 样本
How to get a random (bootstrap) sample from pandas multiindex
我正在尝试从 Pandas 中的多索引数据帧创建引导样本。下面是一些生成我需要的数据的代码。
from itertools import product
import pandas as pd
import numpy as np
df = pd.DataFrame({'group1': [1, 1, 1, 2, 2, 3],
'group2': [13, 18, 20, 77, 109, 123],
'value1': [1.1, 2, 3, 4, 5, 6],
'value2': [7.1, 8, 9, 10, 11, 12]
})
df = df.set_index(['group1', 'group2'])
print df
df 数据框如下所示:
value1 value2
group1 group2
1 13 1.1 7.1
18 2.0 8.0
20 3.0 9.0
2 77 4.0 10.0
109 5.0 11.0
3 123 6.0 12.0
我想从第一个索引中获取随机样本。例如,假设随机值 np.random.randint(3,size=3)
产生 [3,2,2]。我希望生成的数据框看起来像:
value1 value2
group1 group2
3 123 6.0 12.0
2 77 4.0 10.0
109 5.0 11.0
2 77 4.0 10.0
109 5.0 11.0
我花了很多时间研究这个,我一直无法找到一个类似的例子,其中多索引值是整数,二级索引是可变长度的,主索引样本是重复的。这就是我认为引导程序的适当实现的工作方式。
尝试:
df.unstack().sample(3, replace=True).stack()
我正在尝试从 Pandas 中的多索引数据帧创建引导样本。下面是一些生成我需要的数据的代码。
from itertools import product
import pandas as pd
import numpy as np
df = pd.DataFrame({'group1': [1, 1, 1, 2, 2, 3],
'group2': [13, 18, 20, 77, 109, 123],
'value1': [1.1, 2, 3, 4, 5, 6],
'value2': [7.1, 8, 9, 10, 11, 12]
})
df = df.set_index(['group1', 'group2'])
print df
df 数据框如下所示:
value1 value2
group1 group2
1 13 1.1 7.1
18 2.0 8.0
20 3.0 9.0
2 77 4.0 10.0
109 5.0 11.0
3 123 6.0 12.0
我想从第一个索引中获取随机样本。例如,假设随机值 np.random.randint(3,size=3)
产生 [3,2,2]。我希望生成的数据框看起来像:
value1 value2
group1 group2
3 123 6.0 12.0
2 77 4.0 10.0
109 5.0 11.0
2 77 4.0 10.0
109 5.0 11.0
我花了很多时间研究这个,我一直无法找到一个类似的例子,其中多索引值是整数,二级索引是可变长度的,主索引样本是重复的。这就是我认为引导程序的适当实现的工作方式。
尝试:
df.unstack().sample(3, replace=True).stack()