熊猫 datetime64 列的中位数
median of panda datetime64 column
有没有办法计算 return 日期时间格式的日期时间列的中位数?
我想计算 python 中一列的中位数,格式为 datetime64[ns]。以下是该列的示例:
df['date'].head()
0 2017-05-08 13:25:13.342
1 2017-05-08 16:37:45.545
2 2017-01-12 11:08:04.021
3 2016-12-01 09:06:29.912
4 2016-06-08 03:16:40.422
名称:新近度,数据类型:datetime64[ns]
我的目标是使中位数的日期时间格式与上面的日期列相同:
尝试转换为 np.array:
median_ = np.median(np.array(df['date']))
但这会引发错误:
TypeError: ufunc add cannot use operands with types dtype('<M8[ns]') and dtype('<M8[ns]')
转换为 int64 然后计算中位数并尝试将 return 格式转换为 datetime 不起作用
df['date'].astype('int64').median().astype('datetime64[ns]')
只取中间值怎么样?
dates = list(df.sort('date')['date'])
print dates[len(dates)//2]
如果 table 已排序,您甚至可以跳过一行。
你很接近,median()
return 一个 float
所以先把它转换成一个 int
:
import math
median = math.floor(df['date'].astype('int64').median())
然后把代表日期的int
转换成datetime64
:
result = np.datetime64(median, "ns") #unit: nanosecond
你也可以试试quantile(0.5)
:
df['date'].astype('datetime64[ns]').quantile(0.5, interpolation="midpoint")
有没有办法计算 return 日期时间格式的日期时间列的中位数? 我想计算 python 中一列的中位数,格式为 datetime64[ns]。以下是该列的示例:
df['date'].head()
0 2017-05-08 13:25:13.342
1 2017-05-08 16:37:45.545
2 2017-01-12 11:08:04.021
3 2016-12-01 09:06:29.912
4 2016-06-08 03:16:40.422
名称:新近度,数据类型:datetime64[ns]
我的目标是使中位数的日期时间格式与上面的日期列相同:
尝试转换为 np.array:
median_ = np.median(np.array(df['date']))
但这会引发错误:
TypeError: ufunc add cannot use operands with types dtype('<M8[ns]') and dtype('<M8[ns]')
转换为 int64 然后计算中位数并尝试将 return 格式转换为 datetime 不起作用
df['date'].astype('int64').median().astype('datetime64[ns]')
只取中间值怎么样?
dates = list(df.sort('date')['date'])
print dates[len(dates)//2]
如果 table 已排序,您甚至可以跳过一行。
你很接近,median()
return 一个 float
所以先把它转换成一个 int
:
import math
median = math.floor(df['date'].astype('int64').median())
然后把代表日期的int
转换成datetime64
:
result = np.datetime64(median, "ns") #unit: nanosecond
你也可以试试quantile(0.5)
:
df['date'].astype('datetime64[ns]').quantile(0.5, interpolation="midpoint")