Pyplot 堆叠直方图 - 列中的出现次数
Pyplot Stacked histogram - amount of occurences in column
我正在尝试在直方图中显示从防火墙日志中收集的数据表,以便文件中的每个日期都有一个条形图,并且特定列中的出现次数堆叠在条形图中。
我在这里查看了几个例子,但它们似乎都是基于这样一个事实,即我会知道特定列中有哪些值 - 而我在这里试图实现的是在没有的情况下呈现直方图的方式需要知道所有可能的字段。
在示例中,我使用协议作为列:
#!/usr/bin/python
import pandas as pd
import numpy as np
import glob
import matplotlib.pyplot as plt
csvs = glob.glob("*log-export.csv")
dfs = [pd.read_csv(csv, sep="\xff", engine="python") for csv in csvs]
df_merged = pd.concat(dfs).fillna("")
data = df_merged[['date', 'proto']]
np_data = np.array(data)
plt.hist(np_data, stacked=True)
plt.show()
但这显示了下图:
histogram
我想完成这样的事情:
stacked
有什么实现方法的建议吗?
设置
因为你没有提供,我不得不补数据
df = pd.DataFrame(dict(
Date=pd.date_range(end=pd.to_datetime('now'), periods=100, freq='H'),
Proto=np.random.choice('UDP TCP ICMP'.split(), 100, p=(.3, .5, .2))
))
解决方案
使用 pd.crosstab
然后绘制
pd.crosstab(df.Date.dt.date, df.Proto).plot.bar(stacked=True)
我正在尝试在直方图中显示从防火墙日志中收集的数据表,以便文件中的每个日期都有一个条形图,并且特定列中的出现次数堆叠在条形图中。
我在这里查看了几个例子,但它们似乎都是基于这样一个事实,即我会知道特定列中有哪些值 - 而我在这里试图实现的是在没有的情况下呈现直方图的方式需要知道所有可能的字段。
在示例中,我使用协议作为列:
#!/usr/bin/python
import pandas as pd
import numpy as np
import glob
import matplotlib.pyplot as plt
csvs = glob.glob("*log-export.csv")
dfs = [pd.read_csv(csv, sep="\xff", engine="python") for csv in csvs]
df_merged = pd.concat(dfs).fillna("")
data = df_merged[['date', 'proto']]
np_data = np.array(data)
plt.hist(np_data, stacked=True)
plt.show()
但这显示了下图:
histogram
我想完成这样的事情:
stacked
有什么实现方法的建议吗?
设置
因为你没有提供,我不得不补数据
df = pd.DataFrame(dict(
Date=pd.date_range(end=pd.to_datetime('now'), periods=100, freq='H'),
Proto=np.random.choice('UDP TCP ICMP'.split(), 100, p=(.3, .5, .2))
))
解决方案
使用 pd.crosstab
然后绘制
pd.crosstab(df.Date.dt.date, df.Proto).plot.bar(stacked=True)