如何获得所有数值列的“.describe()”统计数据,无论是否嵌套?

How can I get the ".describe()" statistics over all numerical columns, nested or not?

获取数据框(或列表或数组)中任何列的简单描述性统计信息的最佳方法是什么,是否嵌套,一种高级 df.describe() ,它还包括带有数值的嵌套结构。

就我而言,我有一个包含许多列的数据框。有些列在每一行都有一个数字列表(在我的例子中是时间序列结构),这是一个嵌套结构。

这样的嵌套结构是指:

如何一次性得到嵌套结构中任意一层的简单描述性统计信息?

请求

df.describe() 

只会给我数字列的统计数据,而不是包含数值列表的列的统计数据。 我无法通过应用

获得统计信息
from scipy import stats
stats.describe(arr)

因为它是 中非嵌套数组的解决方案。

我的第一种方法是先获取每个数字列表的统计信息,然后再对其进行统计,例如均值的均值或方差的均值也会给我一些信息。 在我的第一种方法中,我首先将具有嵌套数值列表的特定列转换为一系列嵌套列表。嵌套数组或列表可能需要稍作调整,尚未测试。

嵌套结构 = df['nestedColumn']

[stats.describe([a[x] for a in [stats.describe(x) for x in NESTEDSTRUCTURE]]) for x in range(6)]

为您提供嵌套结构列的统计信息。如果你想要一列所有平均值的平均值,你可以使用

stats.describe([a[2] for a in [stats.describe(x) for x in NESTEDSTRUCTURE]])

因为位置 2 代表 "mean" in

DescribeResult(nobs=, minmax=(, ), mean=, variance=, skewness=, kurtosis=)

我希望有更好的描述性统计方法,它也应该自动理解具有数值的嵌套结构,这只是一种解决方法。