使用列作为 Python 中最大值的决胜局

Using column as tiebreaker for maximums in Python

重新发布并进行了说明。

我正在处理如下所示的数据框:

+-------+----+------+------+
| Value | ID | Date | ID 2 |
+-------+----+------+------+
|     1 |  5 | 2012 | 111 |
|     1 |  5 | 2012 | 112 |
|     0 | 12 | 2017 | 113 |
|     0 | 12 | 2022 | 114 |
|     1 | 27 | 2005 | 115 |
|     1 | 27 | 2011 | 116 |
+-------+----+------+-----+

仅使用“值”==“1”(“值是布尔值”)的行,我想按 ID 对数据框进行分组并将字符串“最新”输入到新的(空白)列,给出以下内容输出:

+-------+----+------+------+-------+
| Value | ID | Date | ID 2 |Latest |
+-------+----+------+------+-------+
|     1 |  5 | 2012 | 111 |        |
|     1 |  5 | 2012 | 112 | Latest |
|     0 | 12 | 2017 | 113 |        |
|     0 | 12 | 2022 | 114 |        |
|     1 | 27 | 2005 | 115 |        |
|     1 | 27 | 2011 | 116 | Latest |
+-------+----+------+-----+--------+

我正在使用以下代码查找最大值:

latest = df.query('Value==1').groupby("ID").max("Year").assign(Latest = "Latest")
df = pd.merge(df,latest,how="outer")
df

但我后来意识到一些最大年份是相同的,即可能有 4 行,所有最大年份都是 2017 年。对于决胜局,我需要在组内使用最大 ID 2。

latest = df.query('Value==1').groupby("ID").max("Year").groupby("ID 2").max("ID 2").assign(Latest = "Latest")
df = pd.merge(df,latest,how="outer")
df

但它给我的数据框与我想要的完全不同。

试试这个:

df['Latest'] = np.where(df['ID2'].eq(df.groupby(df['Value'].ne(df['Value'].shift(1)).cumsum())['ID2'].transform('max')) & df['Value'].ne(0), 'Latest', '')

输出:

>>> df
   Value  ID  Date  ID2  Latest
0      1   5  2012  111        
1      1   5  2012  112  Latest
2      0  12  2017  113        
3      0  12  2022  114        
4      1  27  2005  115        
5      1  27  2011  116  Latest

这是一种与您自己的方法有点相似的方法。基本上,groupby + last 得到最新的 + assign 一个变量 + merge:

df = df.merge(df.groupby(['ID', 'Value'])['ID 2'].last().reset_index().assign(Latest=lambda x: np.where(x['Value'], 'Latest', '')), how='outer').fillna('')

甚至这样也行得通:

df = df.query('Value==1').groupby('ID').last('ID 2').assign(Latest='Latest').merge(df, how='outer').fillna('')

输出:

   Value  ID  Date  ID 2  Latest
0      1   5  2012   111        
1      1   5  2012   112  Latest
2      0  12  2017   113        
3      0  12  2022   114        
4      1  27  2005   115        
5      1  27  2011   116  Latest

这是一个具有 window 功能的:

c = df['Value'].ne(df['Value'].shift()) 
s = df['Date'].add(df['ID 2']) #add the year and ID for handling duplicates
c1 = s.eq(s.groupby(c.cumsum()).transform('max'))& (df['Value'].eq(1))

df['Latest'] = np.where(c1,'Latest','')

print(df)

   Value  ID  Date  ID 2  Latest
0      1   5  2012   111        
1      1   5  2012   112  Latest
2      0  12  2017   113        
3      0  12  2022   114        
4      1  27  2005   115        
5      1  27  2011   116  Latest