Python 中连续数据的箱线图
Box plot for continuous data in Python
我有一个包含 2 列的 csv 文件:
col1- Timestamp
data(yyyy-mm-dd hh:mm:ss.ms (8个月数据))
col2:热数据(连续变量)。
由于有将近 50k 条记录,我想将 col1(timestamp col) 划分为数月或数周,然后在热数据 w.r.t 时间戳上应用箱线图。
我在 R 中试过,需要很长时间。在 Python 需要帮助。我想我需要使用 seaborn.boxplot
。
请指导。
按频率分组然后绘制组
第一个Read your csv data into a Pandas DataFrame
import numpy as np
import Pandas as pd
from matplotlib import pyplot as plt
# assumes NO header line in csv
df = pd.read_csv('\file\path', names=['time','temp'], parse_dates=[0])
我会使用一些假数据,30 天的每小时样本。
heat = np.random.random(24*30) * 100
dates = pd.date_range('1/1/2011', periods=24*30, freq='H')
df = pd.DataFrame({'time':dates,'temp':heat})
将时间戳设置为 DataFrame 的索引
df = df.set_index('time')
现在按你想要的时间段分组,本例为 7 天
gb = df.groupby(pd.Grouper(freq='7D'))
现在您可以分别绘制每个组
for g, week in gb2:
#week.plot()
week.boxplot()
plt.title(f'Week Of {g.date()}')
plt.show()
plt.close()
还有...我没想到你可以做到这一点,但它很酷
ax = gb.boxplot(subplots=False)
plt.setp(ax.xaxis.get_ticklabels(),rotation=30)
plt.show()
plt.close()
heat = np.random.random(24*300) * 100
dates = pd.date_range('1/1/2011', periods=24*300, freq='H')
df = pd.DataFrame({'time':dates,'temp':heat})
df = df.set_index('time')
将数据划分为五个时间段,然后获取每个时间段的每周箱线图:
确定总时间跨度;除以五;创建频率别名;然后groupby
dt = df.index[-1] - df.index[0]
dt = dt/5
alias = f'{dt.total_seconds()}S'
gb = df.groupby(pd.Grouper(freq=alias))
每个组都是一个 DataFrame,因此遍历这些组;从每个组中创建 每周 个组并绘制它们的箱线图。
for g,d_frame in gb:
gb_tmp = d_frame.groupby(pd.Grouper(freq='7D'))
ax = gb_tmp.boxplot(subplots=False)
plt.setp(ax.xaxis.get_ticklabels(),rotation=90)
plt.show()
plt.close()
可能有更好的方法来做到这一点,如果是的话,我会 post 或者也许有人会免费编辑它。看起来这可能会导致最后一组没有完整的数据集。 ...
如果您知道您的数据是周期性的,您可以使用切片将其拆分。
n = len(df) // 5
for tmp_df in (df[i:i+n] for i in range(0, len(df), n)):
gb_tmp = tmp_df.groupby(pd.Grouper(freq='7D'))
ax = gb_tmp.boxplot(subplots=False)
plt.setp(ax.xaxis.get_ticklabels(),rotation=90)
plt.show()
plt.close()
我有一个包含 2 列的 csv 文件:
col1-
Timestamp
data(yyyy-mm-dd hh:mm:ss.ms (8个月数据))col2:热数据(连续变量)。
由于有将近 50k 条记录,我想将 col1(timestamp col) 划分为数月或数周,然后在热数据 w.r.t 时间戳上应用箱线图。
我在 R 中试过,需要很长时间。在 Python 需要帮助。我想我需要使用 seaborn.boxplot
。
请指导。
按频率分组然后绘制组
第一个Read your csv data into a Pandas DataFrame
import numpy as np
import Pandas as pd
from matplotlib import pyplot as plt
# assumes NO header line in csv
df = pd.read_csv('\file\path', names=['time','temp'], parse_dates=[0])
我会使用一些假数据,30 天的每小时样本。
heat = np.random.random(24*30) * 100
dates = pd.date_range('1/1/2011', periods=24*30, freq='H')
df = pd.DataFrame({'time':dates,'temp':heat})
将时间戳设置为 DataFrame 的索引
df = df.set_index('time')
现在按你想要的时间段分组,本例为 7 天
gb = df.groupby(pd.Grouper(freq='7D'))
现在您可以分别绘制每个组
for g, week in gb2:
#week.plot()
week.boxplot()
plt.title(f'Week Of {g.date()}')
plt.show()
plt.close()
还有...我没想到你可以做到这一点,但它很酷
ax = gb.boxplot(subplots=False)
plt.setp(ax.xaxis.get_ticklabels(),rotation=30)
plt.show()
plt.close()
heat = np.random.random(24*300) * 100
dates = pd.date_range('1/1/2011', periods=24*300, freq='H')
df = pd.DataFrame({'time':dates,'temp':heat})
df = df.set_index('time')
将数据划分为五个时间段,然后获取每个时间段的每周箱线图:
确定总时间跨度;除以五;创建频率别名;然后groupby
dt = df.index[-1] - df.index[0]
dt = dt/5
alias = f'{dt.total_seconds()}S'
gb = df.groupby(pd.Grouper(freq=alias))
每个组都是一个 DataFrame,因此遍历这些组;从每个组中创建 每周 个组并绘制它们的箱线图。
for g,d_frame in gb:
gb_tmp = d_frame.groupby(pd.Grouper(freq='7D'))
ax = gb_tmp.boxplot(subplots=False)
plt.setp(ax.xaxis.get_ticklabels(),rotation=90)
plt.show()
plt.close()
可能有更好的方法来做到这一点,如果是的话,我会 post 或者也许有人会免费编辑它。看起来这可能会导致最后一组没有完整的数据集。 ...
如果您知道您的数据是周期性的,您可以使用切片将其拆分。
n = len(df) // 5
for tmp_df in (df[i:i+n] for i in range(0, len(df), n)):
gb_tmp = tmp_df.groupby(pd.Grouper(freq='7D'))
ax = gb_tmp.boxplot(subplots=False)
plt.setp(ax.xaxis.get_ticklabels(),rotation=90)
plt.show()
plt.close()