Python Pandas - 使用 interpolate() 将一列的 NaN 值替换为另一列

Python Pandas - Replace NaN values of a column with respect to another column using interpolate()

我在使用 interpolate().

处理与列 City 相关的 Temperature 列中的 NaN 值时遇到问题

df 是:

data ={
    'City':['Greenville','Charlotte', 'Los Gatos','Greenville','Carson City','Greenville','Greenville' ,'Charlotte','Carson City',
                'Greenville','Charlotte','Fort Lauderdale', 'Rifle', 'Los Gatos','Fort Lauderdale'],
    'Rec_times':['2019-05-21 08:29:55','2019-01-27 17:43:09','2020-12-13 21:53:00','2019-07-17 11:43:09','2018-04-17 16:51:23',
             '2019-10-07 13:28:09','2020-01-07 11:38:10','2019-11-03 07:13:09','2020-11-19 10:45:23','2020-10-07 15:48:19','2020-10-07 10:53:09',
            '2017-08-31 17:40:49','2016-08-31 17:40:49','2021-11-13 20:13:10','2016-08-31 19:43:29'],
    'Temperature':[30,45,26,33,50,None,29,None,48,32,47,33,None,None,28],
    'Pressure':[30,None,26,43,50,36,29,None,48,32,None,35,23,49,None]
}
df =pd.DataFrame(data)
df

输出:

    City              Rec_times            Temperature   Pressure
0   Greenville      2019-05-21 08:29:55        30.0        30.0
1   Charlotte       2019-01-27 17:43:09        45.0         NaN
2   Los Gatos       2020-12-13 21:53:00        26.0        26.0
3   Greenville      2019-07-17 11:43:09        33.0        43.0
4   Carson City     2018-04-17 16:51:23        50.0        50.0
5   Greenville      2019-10-07 13:28:09        NaN         36.0
6   Greenville      2020-01-07 11:38:10        29.0        29.0
7   Charlotte       2019-11-03 07:13:09        NaN         NaN
8   Carson City     2020-11-19 10:45:23        48.0        48.0
9   Greenville      2020-10-07 15:48:19        32.0        32.0
10  Charlotte       2020-10-07 10:53:09        47.0        NaN
11  Fort Lauderdale 2017-08-31 17:40:49        33.0        35.0
12  Rifle           2016-08-31 17:40:49        NaN         23.0
13  Los Gatos       2021-11-13 20:13:10        NaN         49.0
14  Fort Lauderdale 2016-08-31 19:43:29        28.0        NaN

我希望您通过使用 interpolate(method='time').[=29 基于 City 对它们进行分组来处理列 Temperature 中的 NaN 值=]

例如:

City 视为 'Greenville' 它在不同时间记录了 5 个温度(30,33,NaN,2932)。 Temperature 中的 NaN 值替换为按 City 对记录分组并使用 interpolate(method='time').

的值

注意:如果您知道在 Temperature 中替换 NaN 的任何其他最佳方法,您可以使用 'Other solution'.

我的理解是,您想用特定城市的温度插值来替换温度列中的 NaN

我将不得不考虑更复杂的解决方案。但这是一个简单的技巧:

df["Rec_times"] = pd.to_datetime(df["Rec_times"]) # .interpolate requires datetime
df["idx"] = df.index # to restore original ordering
df_new = pd.DataFrame() # will hold new data
for (city,group) in df.groupby("City"):
    group = group.set_index("Rec_times", drop=False)
    df_new = pd.concat((df_new, group.interpolate(method='time')))
    
df_new = df_new.set_index("idx").sort_index() # Restore original ordering
df_new

请注意,如果只有一个数据点 NaN

Rifle 的插值将产生 NaN

使用由 DataFrame.set_index with GroupBy.transform 创建的 DatetimeIndex 的 lambda 函数:

df["Rec_times"] = pd.to_datetime(df["Rec_times"])

df['Temperature'] = (df.set_index('Rec_times')
                       .groupby("City")['Temperature']
                       .transform(lambda x: x.interpolate(method='time')).to_numpy())

interpolate 之后替换缺失值的一个可能想法是用所有值的 mean 替换它们,例如:

df1.Temperature = df1.Temperature.fillna(df1.Temperature.mean())