我在 pandas python 中遇到问题,我认为这可能是由于错误使用了 groupby
I am having a problem in pandas python which i think might be due to wrong use of groupby
我的数据集如下所示:
A B C CompanyName Sector year
4 9 3 d 10 2000
2 4 45 f 78 2001
7 53 55 y 99 2000
我想让它看起来像这样
MeanA MeanB MeanC medianC Sector Year
bla bla bla bla bla bla
bla bla bla bla bla bla
bla bla bla bla bla bla
bla bla bla bla bla bla
所以我首先想到的是按部门和年份分组,然后使用 .agg() 计算 meanC medianC meanb meanA。但问题是对于 meanC 我注意到奇怪的空单元格,即使 medianC 存在所以至少它应该假定该值。
这是一个代码示例:
Data=Data.groupby(['Sector','year']).agg({'A':'mean', 'B':'mean', "C":['mean', 'median']})
我认为我以错误的方式使用了 groupby 函数,我们将不胜感激
PS。我的数据集包含从 2000 年到 2015 年的大约 12 万行,涉及多家公司
每一列的dtype
是什么? A
和 B
和 C
都是数字吗,或者您可以将它们转换为 int
或 float
,还是您的数据集脏了?如果 gropuby
适用于 A
和 B
,如果 C
.
突然失败,则可能是数据质量问题
作为聚合函数,可以直接调用mean()
df.groupby['Sector', 'year'].mean()['C']
问题是由于在 C 列中除以零,因此该特定列具有 -inf +inf 值,导致 groupby agg 代码行中的单元格为空。因此,多亏了 groupby 阶段的 NaN 单元,我发现了一个致命错误。感谢大家抽空
我的数据集如下所示:
A B C CompanyName Sector year
4 9 3 d 10 2000
2 4 45 f 78 2001
7 53 55 y 99 2000
我想让它看起来像这样
MeanA MeanB MeanC medianC Sector Year
bla bla bla bla bla bla
bla bla bla bla bla bla
bla bla bla bla bla bla
bla bla bla bla bla bla
所以我首先想到的是按部门和年份分组,然后使用 .agg() 计算 meanC medianC meanb meanA。但问题是对于 meanC 我注意到奇怪的空单元格,即使 medianC 存在所以至少它应该假定该值。
这是一个代码示例:
Data=Data.groupby(['Sector','year']).agg({'A':'mean', 'B':'mean', "C":['mean', 'median']})
我认为我以错误的方式使用了 groupby 函数,我们将不胜感激
PS。我的数据集包含从 2000 年到 2015 年的大约 12 万行,涉及多家公司
每一列的dtype
是什么? A
和 B
和 C
都是数字吗,或者您可以将它们转换为 int
或 float
,还是您的数据集脏了?如果 gropuby
适用于 A
和 B
,如果 C
.
作为聚合函数,可以直接调用mean()
df.groupby['Sector', 'year'].mean()['C']
问题是由于在 C 列中除以零,因此该特定列具有 -inf +inf 值,导致 groupby agg 代码行中的单元格为空。因此,多亏了 groupby 阶段的 NaN 单元,我发现了一个致命错误。感谢大家抽空