如何获得所有数值列的“.describe()”统计数据，无论是否嵌套？

Question

获取数据框（或列表或数组）中任何列的简单描述性统计信息的最佳方法是什么，是否嵌套，一种高级 df.describe() ，它还包括带有数值的嵌套结构。

就我而言，我有一个包含许多列的数据框。有些列在每一行都有一个数字列表（在我的例子中是时间序列结构），这是一个嵌套结构。

这样的嵌套结构是指：

如何一次性得到嵌套结构中任意一层的简单描述性统计信息？

请求

df.describe()

只会给我数字列的统计数据，而不是包含数值列表的列的统计数据。我无法通过应用

获得统计信息

from scipy import stats
stats.describe(arr)

因为它是中非嵌套数组的解决方案。

Answer 1

我的第一种方法是先获取每个数字列表的统计信息，然后再对其进行统计，例如均值的均值或方差的均值也会给我一些信息。在我的第一种方法中，我首先将具有嵌套数值列表的特定列转换为一系列嵌套列表。嵌套数组或列表可能需要稍作调整，尚未测试。

嵌套结构 = df['nestedColumn']

[stats.describe([a[x] for a in [stats.describe(x) for x in NESTEDSTRUCTURE]]) for x in range(6)]

为您提供嵌套结构列的统计信息。如果你想要一列所有平均值的平均值，你可以使用

stats.describe([a[2] for a in [stats.describe(x) for x in NESTEDSTRUCTURE]])

因为位置 2 代表 "mean" in

DescribeResult(nobs=, minmax=(, ), mean=, variance=, skewness=, kurtosis=)

我希望有更好的描述性统计方法，它也应该自动理解具有数值的嵌套结构，这只是一种解决方法。

How can I get the ".describe()" statistics over all numerical columns, nested or not?