如何仅比较日期或日期时间而忽略混合数据类型的 Python Pandas 数据框列中的秒数?

How to compare just the date or just date time ignoring seconds in a Python Pandas dataframe column of mixed data types?

在 pandas 数据框中,我有一列混合数据类型,例如文本、整数和日期时间。我需要找到日期时间匹配的列:(1) 某些情况下的精确值,(2) 仅日期(忽略时间),或 (3) 仅日期和时间,但忽略秒数。

在以下具有混合数据类型数据框列的代码示例中,存在三个不精确的不同日期。将条件映射到单独的数据帧中以获得精确值。

import pandas as pd
import numpy as np
# example data frame
inp = [{'Id': 0, 'mixCol': np.nan},
       {'Id': 1, 'mixCol': "text"},
       {'Id': 2, 'mixCol': 43831},
       {'Id': 3, 'mixCol': pd.to_datetime("2020-01-01 00:00:00")}, 
       {'Id': 4, 'mixCol': pd.to_datetime("2020-01-01 01:01:00")},
       {'Id': 5, 'mixCol': pd.to_datetime("2020-01-01 01:01:01")}
       ]
df = pd.DataFrame(inp)
print(df.dtypes)

myMap = pd.DataFrame()
myMap["Exact"] = df["mixCol"] == pd.to_datetime("2020-01-01 01:01:01")

0   False
1   False
2   False
3   False
4   False
5   True
6   False

我需要的输出应该是:

Id   Exact    DateOnly    NoSeconds
0    False    False       False
1    False    False       False
2    False    False       False
3    False    True        False
0    False    True        True 
5    True     True        True 
6    False    False       False 

但是,仅映射日期而不映射时间,映射时就好像日期的时间为 00:00:00。

myMap["DateOnly"] = df["mixCol"] == pd.to_datetime("2020-01-01")

Id   Exact    DateOnly
0    False    False   
1    False    False  
2    False    False  
3    False    True   
0    False    False  
5    True     False  
6    False    False  

尝试转换混合列中的值会引发 AttributeError:'Series' 对象没有属性 'date';并尝试使用“>”和“<”来定义相关范围会引发 TypeError: '>=' not supported between instances of 'str' and 'Timestamp'

myMap["DateOnly"] = df["mixCol"].date == pd.to_datetime("2020-01-01")
myMap["NoSeconds"] = (df["mixCol"] >= pd.to_datetime("2020-01-01 01:01:00")) & (df["mixCol"] < pd.to_datetime("2020-01-01 01:02:00"))

如果我尝试遵循 的解决方案,np.nan 和文本值都映射为日期。

df["IsDate"] = df.apply(pd.to_datetime, errors='coerce',axis=1).nunique(1).eq(1).map({True:True ,False:False})

我不确定在这种情况下如何进行?

使用 Series.dt.normalize for compare datetimes with remove times (set them to 00:00:00) or with Series.dt.floor 按天或分钟删除秒数:

#convert column to all datetimes with NaT
d = pd.to_datetime(df["mixCol"], errors='coerce')
myMap["DateOnly"] = d.dt.normalize() == pd.to_datetime("2020-01-01")
myMap["DateOnly"] = d.dt.floor('D') == pd.to_datetime("2020-01-01")

#alternative with dates
myMap["DateOnly"] = d.dt.date == pd.to_datetime("2020-01-01").date()

myMap['NoSeconds'] = d.dt.floor('Min') == pd.to_datetime("2020-01-01 01:01:00")

print (myMap)
   Exact  DateOnly  NoSeconds
0  False     False      False
1  False     False      False
2  False     False      False
3  False      True      False
4  False      True       True
5   True      True       True