Pandas 创建一个新列，它采用给定项目代码的最常见项目描述

Question

我有一个看起来像这样的数据框：

我想根据组 # 或第一个实例（如果有平局）用最频繁的描述替换项目的描述。

所以在上面的例子中：Chips Ketchup（1 个实例）被 Chips BBQ（2 个实例）替换，Cereal Chocolate 被 Cereal Honey（第一个实例）替换。

期望的输出是：

如果这太复杂，我可以简单地用第一个实例替换，根本不考虑频率。

提前致谢

Answer 1

您可以使用

df['Description'] = df.groupby('Group')['Description'].transform(lambda s: s.value_counts().index[0])

似乎 Series.value_counts（与我也尝试过的 Series.mode 不同）对第一次出现时出现相同次数的元素进行排序。此行为未记录在案，因此我不确定您是否可以信赖它。

Pandas Create a new Column which takes the Most Frequent item Description given Item Codes