如何获得所有数值列的“.describe()”统计数据,无论是否嵌套?
How can I get the ".describe()" statistics over all numerical columns, nested or not?
获取数据框(或列表或数组)中任何列的简单描述性统计信息的最佳方法是什么,是否嵌套,一种高级 df.describe() ,它还包括带有数值的嵌套结构。
就我而言,我有一个包含许多列的数据框。有些列在每一行都有一个数字列表(在我的例子中是时间序列结构),这是一个嵌套结构。
这样的嵌套结构是指:
- 数组列表,
- 数组的数组,
- 系列列表,
- 在某些列中包含嵌套数值列表的数据框(我的情况)
如何一次性得到嵌套结构中任意一层的简单描述性统计信息?
请求
df.describe()
只会给我数字列的统计数据,而不是包含数值列表的列的统计数据。
我无法通过应用
获得统计信息
from scipy import stats
stats.describe(arr)
因为它是 中非嵌套数组的解决方案。
我的第一种方法是先获取每个数字列表的统计信息,然后再对其进行统计,例如均值的均值或方差的均值也会给我一些信息。
在我的第一种方法中,我首先将具有嵌套数值列表的特定列转换为一系列嵌套列表。嵌套数组或列表可能需要稍作调整,尚未测试。
嵌套结构 = df['nestedColumn']
[stats.describe([a[x] for a in [stats.describe(x) for x in NESTEDSTRUCTURE]]) for x in range(6)]
为您提供嵌套结构列的统计信息。如果你想要一列所有平均值的平均值,你可以使用
stats.describe([a[2] for a in [stats.describe(x) for x in NESTEDSTRUCTURE]])
因为位置 2 代表 "mean" in
DescribeResult(nobs=, minmax=(, ), mean=, variance=, skewness=,
kurtosis=)
我希望有更好的描述性统计方法,它也应该自动理解具有数值的嵌套结构,这只是一种解决方法。
获取数据框(或列表或数组)中任何列的简单描述性统计信息的最佳方法是什么,是否嵌套,一种高级 df.describe() ,它还包括带有数值的嵌套结构。
就我而言,我有一个包含许多列的数据框。有些列在每一行都有一个数字列表(在我的例子中是时间序列结构),这是一个嵌套结构。
这样的嵌套结构是指:
- 数组列表,
- 数组的数组,
- 系列列表,
- 在某些列中包含嵌套数值列表的数据框(我的情况)
如何一次性得到嵌套结构中任意一层的简单描述性统计信息?
请求
df.describe()
只会给我数字列的统计数据,而不是包含数值列表的列的统计数据。 我无法通过应用
获得统计信息from scipy import stats
stats.describe(arr)
因为它是
我的第一种方法是先获取每个数字列表的统计信息,然后再对其进行统计,例如均值的均值或方差的均值也会给我一些信息。 在我的第一种方法中,我首先将具有嵌套数值列表的特定列转换为一系列嵌套列表。嵌套数组或列表可能需要稍作调整,尚未测试。
嵌套结构 = df['nestedColumn']
[stats.describe([a[x] for a in [stats.describe(x) for x in NESTEDSTRUCTURE]]) for x in range(6)]
为您提供嵌套结构列的统计信息。如果你想要一列所有平均值的平均值,你可以使用
stats.describe([a[2] for a in [stats.describe(x) for x in NESTEDSTRUCTURE]])
因为位置 2 代表 "mean" in
DescribeResult(nobs=, minmax=(, ), mean=, variance=, skewness=, kurtosis=)
我希望有更好的描述性统计方法,它也应该自动理解具有数值的嵌套结构,这只是一种解决方法。