从仅包含小时的字符串列表中在 pandas 框架列中设置日期

Question

我想知道是否有人可以帮助我解决这个问题：我有一个 pandas 数据框（从文本文件生成），它的结构应该类似于这个：

import pandas as pd

data = {'Objtype'   : ['bias', 'bias', 'flat', 'flat', 'StdStar', 'flat', 'Arc', 'Target1', 'Arc', 'Flat', 'Flat', 'Flat', 'bias', 'bias'], 
        'UT'        :  pd.date_range("23:00", "00:05", freq="5min").values,
        'Position'  : ['P0', 'P0', 'P0', 'P0', 'P1', 'P1','P1', 'P2','P2','P2', 'P0', 'P0', 'P0', 'P0']}

df   = pd.DataFrame(data=data)

我想做一些考虑到观察时间的操作，所以我将 UT 列从 string 格式更改为 numpy datetime64:

df['UT'] = pd.to_datetime(df['UT'])

这给了我这样的东西：

   Objtype Position                  UT
0     bias       P0 2016-08-31 23:45:00
1     bias       P0 2016-08-31 23:50:00
2     flat       P0 2016-08-31 23:55:00
3     flat       P0 2016-08-31 00:00:00
4  StdStar       P1 2016-08-31 00:05:00
5     flat       P1 2016-08-31 00:10:00
6      Arc       P1 2016-08-31 00:15:00
7  Target1       P1 2016-08-31 00:20:00

但是，这里有两个问题：

第一）year/month/day赋值给当前

第二）天没有变化，从23:59 -> 00:00。而是倒退了。

如果我们知道第一个数据框索引行的真实日期，并且我们知道所有条目都是按顺序排列的（并且它们总是从日落到日出）。我们如何纠正这些问题？

Answer 1

查找 2 行之间的时间增量：

df.UT - df.UT.shift()
Out[48]: 
0                 NaT
1            00:05:00
2            00:05:00
3   -1 days +00:05:00
4            00:05:00
5            00:05:00
6            00:05:00
7            00:05:00
Name: UT, dtype: timedelta64[ns]

寻找时间倒流的时间：

df.UT - df.UT.shift() < pd.Timedelta(0)
Out[49]: 
0    False
1    False
2    False
3     True
4    False
5    False
6    False
7    False
Name: UT, dtype: bool

每行向后增加 1 天：

((df.UT - df.UT.shift() < pd.Timedelta(0))*pd.Timedelta(1, 'D'))
Out[50]: 
0   0 days
1   0 days
2   0 days
3   1 days
4   0 days
5   0 days
6   0 days
7   0 days
Name: UT, dtype: timedelta64[ns]

要向前广播系列中的额外天数，请使用 cumsum 模式：

((df.UT - df.UT.shift() < pd.Timedelta(0))*pd.Timedelta(1, 'D')).cumsum()
Out[53]: 
0   0 days
1   0 days
2   0 days
3   1 days
4   1 days
5   1 days
6   1 days
7   1 days
Name: UT, dtype: timedelta64[ns]

将此校正向量添加回您的原始 UT 列：

df.UT + ((df.UT - df.UT.shift() < pd.Timedelta(0))*pd.Timedelta(1, 'D')).cumsum()
Out[51]: 
0   2016-08-31 23:45:00
1   2016-08-31 23:50:00
2   2016-08-31 23:55:00
3   2016-09-01 00:00:00
4   2016-09-01 00:05:00
5   2016-09-01 00:10:00
6   2016-09-01 00:15:00
7   2016-09-01 00:20:00
Name: UT, dtype: datetime64[ns]

从仅包含小时的字符串列表中在 pandas 框架列中设置日期

Setting the day in a pandas frame column, from a string list containing only the hours

numpy

dataframe

pandas

datetime64