Pandas 从长到宽,不失时区意识
Pandas long to wide without losing timezone awareness
我正在尝试将 pandas 数据帧从长格式重塑为宽格式,但时间戳丢失了时区。
这是一个可重现的例子:
import pandas as pd
long = pd.DataFrame(dict(
ind=[1,1,2, 2],
events=['event1', 'event2', 'event1', 'event2'],
time=[pd.Timestamp('2015-03-30 00:00:00', tz='UTC'),
pd.Timestamp('2015-03-30 01:00:00', tz='UTC'),
pd.Timestamp('2015-03-30 02:00:00', tz='UTC'),
pd.Timestamp('2015-03-30 03:00:00', tz='UTC')]))
然后在查看 long.time
时,我得到了一个时区感知系列。
0 2015-03-30 00:00:00+00:00
1 2015-03-30 01:00:00+00:00
2 2015-03-30 02:00:00+00:00
3 2015-03-30 03:00:00+00:00
Name: time, dtype: datetime64[ns, UTC]
像这样重塑之后
wide = long.set_index(['ind'] + ['events']).unstack(level=1).reset_index()
时区消失了。例如。 wide.time.event1
0 2015-03-30 00:00:00
1 2015-03-30 02:00:00
Name: event1, dtype: datetime64[ns]
有没有不丢失时区的整形方式?
pandas
正在跟踪时区。什么时候,你 unstack
,那个重塑一定发生在 numpy
中,它失去了踪迹。
证明了这一点
df = pd.concat([long.time, pd.Series(long.time.values)],
axis=1, keys=['pandas', 'numpy'])
df
df.dtypes
pandas datetime64[ns, UTC]
numpy datetime64[ns]
dtype: object
解决方法是将每一列重铸为您关心的数据类型
for c, col in wide.filter(like='time').iteritems():
wide[c] = col.astype(long.time.dtype)
wide
我正在尝试将 pandas 数据帧从长格式重塑为宽格式,但时间戳丢失了时区。
这是一个可重现的例子:
import pandas as pd
long = pd.DataFrame(dict(
ind=[1,1,2, 2],
events=['event1', 'event2', 'event1', 'event2'],
time=[pd.Timestamp('2015-03-30 00:00:00', tz='UTC'),
pd.Timestamp('2015-03-30 01:00:00', tz='UTC'),
pd.Timestamp('2015-03-30 02:00:00', tz='UTC'),
pd.Timestamp('2015-03-30 03:00:00', tz='UTC')]))
然后在查看 long.time
时,我得到了一个时区感知系列。
0 2015-03-30 00:00:00+00:00
1 2015-03-30 01:00:00+00:00
2 2015-03-30 02:00:00+00:00
3 2015-03-30 03:00:00+00:00
Name: time, dtype: datetime64[ns, UTC]
像这样重塑之后
wide = long.set_index(['ind'] + ['events']).unstack(level=1).reset_index()
时区消失了。例如。 wide.time.event1
0 2015-03-30 00:00:00
1 2015-03-30 02:00:00
Name: event1, dtype: datetime64[ns]
有没有不丢失时区的整形方式?
pandas
正在跟踪时区。什么时候,你 unstack
,那个重塑一定发生在 numpy
中,它失去了踪迹。
df = pd.concat([long.time, pd.Series(long.time.values)],
axis=1, keys=['pandas', 'numpy'])
df
df.dtypes
pandas datetime64[ns, UTC]
numpy datetime64[ns]
dtype: object
解决方法是将每一列重铸为您关心的数据类型
for c, col in wide.filter(like='time').iteritems():
wide[c] = col.astype(long.time.dtype)
wide