Plotly:如何从具有长格式或宽格式的 pandas 数据帧制作线图?
Plotly: How to make a line plot from a pandas dataframe with a long or wide format?
(这是一个自我回答 post 以帮助其他人缩短他们对 plotly 问题的回答,而不必解释 plotly 如何最好地处理长格式和宽格式的数据)
我想用尽可能少的行基于 pandas 数据框构建一个绘图图形。我知道您可以使用 plotly.express 来做到这一点,但是对于我称之为标准 pandas 数据帧的情况,这会失败;描述行顺序的索引,以及描述数据框中值名称的列名:
示例数据框:
a b c
0 100.000000 100.000000 100.000000
1 98.493705 99.421400 101.651437
2 96.067026 98.992487 102.917373
3 95.200286 98.313601 102.822664
4 96.691675 97.674699 102.378682
一次尝试:
fig=px.line(x=df.index, y = df.columns)
这引发了一个错误:
ValueError: All arguments should have the same length. The length of argument y
is 3, whereas the length of previous arguments ['x'] is 100`
您在这里尝试使用宽格式的 pandas 数据框作为 px.line
的来源。
plotly.express
旨在与 long format, often referred to as tidy data 的数据帧一起使用( 请 看看那个。没有人比 Wickham 更好地解释它)。许多人,尤其是那些因多年与 Excel 斗争而受伤的人,常常发现以宽格式组织数据更容易。那有什么区别呢?
宽幅面:
- 数据与每个不同的数据变量一起显示在单独的列中
- 每列只有一种数据类型
- 缺失值通常用
np.nan
表示
- 最适合与 plotly.graphobjects (
go
)
- 通常使用
fid.add_traces()
将线条添加到图形中
- 颜色通常分配给每条轨迹
示例:
a b c
0 -1.085631 0.997345 0.282978
1 -2.591925 0.418745 1.934415
2 -5.018605 -0.010167 3.200351
3 -5.885345 -0.689054 3.105642
4 -4.393955 -1.327956 2.661660
5 -4.828307 0.877975 4.848446
6 -3.824253 1.264161 5.585815
7 -2.333521 0.328327 6.761644
8 -3.587401 -0.309424 7.668749
9 -5.016082 -0.449493 6.806994
长格式:
- 数据显示为一列包含所有值,另一列列出值的上下文
- 缺失值根本不包含在数据集中。
- 最适用于 plotly.express (
px
)
- 颜色由默认颜色循环设置并分配给每个唯一变量
示例:
id variable value
0 0 a -1.085631
1 1 a -2.591925
2 2 a -5.018605
3 3 a -5.885345
4 4 a -4.393955
... ... ... ...
295 95 c -4.259035
296 96 c -5.333802
297 97 c -6.211415
298 98 c -4.335615
299 99 c -3.515854
怎么走from wide to long?
df = pd.melt(df, id_vars='id', value_vars=df.columns[:-1])
下面的两个片段将产生完全相同的情节:
如何使用px绘制长数据?
fig = px.line(df, x='id', y='value', color='variable')
如何使用go绘制宽数据?
colors = px.colors.qualitative.Plotly
fig = go.Figure()
fig.add_traces(go.Scatter(x=df['id'], y = df['a'], mode = 'lines', line=dict(color=colors[0])))
fig.add_traces(go.Scatter(x=df['id'], y = df['b'], mode = 'lines', line=dict(color=colors[1])))
fig.add_traces(go.Scatter(x=df['id'], y = df['c'], mode = 'lines', line=dict(color=colors[2])))
fig.show()
从表面上看,go
更复杂并且提供了更多的灵活性?嗯,是。和不。您可以使用 px
轻松构建图形并添加您想要的任何 go
对象!
完整的代码片段:
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
# dataframe of a wide format
np.random.seed(123)
X = np.random.randn(100,3)
df=pd.DataFrame(X, columns=['a','b','c'])
df=df.cumsum()
df['id']=df.index
# plotly.graph_objects
colors = px.colors.qualitative.Plotly
fig = go.Figure()
fig.add_traces(go.Scatter(x=df['id'], y = df['a'], mode = 'lines', line=dict(color=colors[0])))
fig.add_traces(go.Scatter(x=df['id'], y = df['b'], mode = 'lines', line=dict(color=colors[1])))
fig.add_traces(go.Scatter(x=df['id'], y = df['c'], mode = 'lines', line=dict(color=colors[2])))
fig.show()
完整像素片段:
import numpy as np
import pandas as pd
import plotly.express as px
from plotly.offline import iplot
# dataframe of a wide format
np.random.seed(123)
X = np.random.randn(100,3)
df=pd.DataFrame(X, columns=['a','b','c'])
df=df.cumsum()
df['id']=df.index
# dataframe of a long format
df = pd.melt(df, id_vars='id', value_vars=df.columns[:-1])
# plotly express
fig = px.line(df, x='id', y='value', color='variable')
fig.show()
我将把这个添加为答案,这样它就会成为证据。
首先感谢@vestland。这是一个反复出现的问题,所以解决这个问题很好,标记重复的问题可能更容易。
Plotly Express 现在接受宽格式和混合格式数据
你可以检查这个 post.
您可以更改 pandas 绘图后端以使用 plotly:
import pandas as pd
pd.options.plotting.backend = "plotly"
然后,要获得无花果,您只需写下:
fig = df.plot()
fig.show()
显示上图。
(这是一个自我回答 post 以帮助其他人缩短他们对 plotly 问题的回答,而不必解释 plotly 如何最好地处理长格式和宽格式的数据)
我想用尽可能少的行基于 pandas 数据框构建一个绘图图形。我知道您可以使用 plotly.express 来做到这一点,但是对于我称之为标准 pandas 数据帧的情况,这会失败;描述行顺序的索引,以及描述数据框中值名称的列名:
示例数据框:
a b c
0 100.000000 100.000000 100.000000
1 98.493705 99.421400 101.651437
2 96.067026 98.992487 102.917373
3 95.200286 98.313601 102.822664
4 96.691675 97.674699 102.378682
一次尝试:
fig=px.line(x=df.index, y = df.columns)
这引发了一个错误:
ValueError: All arguments should have the same length. The length of argument
y
is 3, whereas the length of previous arguments ['x'] is 100`
您在这里尝试使用宽格式的 pandas 数据框作为 px.line
的来源。
plotly.express
旨在与 long format, often referred to as tidy data 的数据帧一起使用( 请 看看那个。没有人比 Wickham 更好地解释它)。许多人,尤其是那些因多年与 Excel 斗争而受伤的人,常常发现以宽格式组织数据更容易。那有什么区别呢?
宽幅面:
- 数据与每个不同的数据变量一起显示在单独的列中
- 每列只有一种数据类型
- 缺失值通常用
np.nan
表示
- 最适合与 plotly.graphobjects (
go
) - 通常使用
fid.add_traces()
将线条添加到图形中
- 颜色通常分配给每条轨迹
示例:
a b c
0 -1.085631 0.997345 0.282978
1 -2.591925 0.418745 1.934415
2 -5.018605 -0.010167 3.200351
3 -5.885345 -0.689054 3.105642
4 -4.393955 -1.327956 2.661660
5 -4.828307 0.877975 4.848446
6 -3.824253 1.264161 5.585815
7 -2.333521 0.328327 6.761644
8 -3.587401 -0.309424 7.668749
9 -5.016082 -0.449493 6.806994
长格式:
- 数据显示为一列包含所有值,另一列列出值的上下文
- 缺失值根本不包含在数据集中。
- 最适用于 plotly.express (
px
) - 颜色由默认颜色循环设置并分配给每个唯一变量
示例:
id variable value
0 0 a -1.085631
1 1 a -2.591925
2 2 a -5.018605
3 3 a -5.885345
4 4 a -4.393955
... ... ... ...
295 95 c -4.259035
296 96 c -5.333802
297 97 c -6.211415
298 98 c -4.335615
299 99 c -3.515854
怎么走from wide to long?
df = pd.melt(df, id_vars='id', value_vars=df.columns[:-1])
下面的两个片段将产生完全相同的情节:
如何使用px绘制长数据?
fig = px.line(df, x='id', y='value', color='variable')
如何使用go绘制宽数据?
colors = px.colors.qualitative.Plotly
fig = go.Figure()
fig.add_traces(go.Scatter(x=df['id'], y = df['a'], mode = 'lines', line=dict(color=colors[0])))
fig.add_traces(go.Scatter(x=df['id'], y = df['b'], mode = 'lines', line=dict(color=colors[1])))
fig.add_traces(go.Scatter(x=df['id'], y = df['c'], mode = 'lines', line=dict(color=colors[2])))
fig.show()
从表面上看,go
更复杂并且提供了更多的灵活性?嗯,是。和不。您可以使用 px
轻松构建图形并添加您想要的任何 go
对象!
完整的代码片段:
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
# dataframe of a wide format
np.random.seed(123)
X = np.random.randn(100,3)
df=pd.DataFrame(X, columns=['a','b','c'])
df=df.cumsum()
df['id']=df.index
# plotly.graph_objects
colors = px.colors.qualitative.Plotly
fig = go.Figure()
fig.add_traces(go.Scatter(x=df['id'], y = df['a'], mode = 'lines', line=dict(color=colors[0])))
fig.add_traces(go.Scatter(x=df['id'], y = df['b'], mode = 'lines', line=dict(color=colors[1])))
fig.add_traces(go.Scatter(x=df['id'], y = df['c'], mode = 'lines', line=dict(color=colors[2])))
fig.show()
完整像素片段:
import numpy as np
import pandas as pd
import plotly.express as px
from plotly.offline import iplot
# dataframe of a wide format
np.random.seed(123)
X = np.random.randn(100,3)
df=pd.DataFrame(X, columns=['a','b','c'])
df=df.cumsum()
df['id']=df.index
# dataframe of a long format
df = pd.melt(df, id_vars='id', value_vars=df.columns[:-1])
# plotly express
fig = px.line(df, x='id', y='value', color='variable')
fig.show()
我将把这个添加为答案,这样它就会成为证据。 首先感谢@vestland。这是一个反复出现的问题,所以解决这个问题很好,标记重复的问题可能更容易。
Plotly Express 现在接受宽格式和混合格式数据 你可以检查这个 post.
您可以更改 pandas 绘图后端以使用 plotly:
import pandas as pd
pd.options.plotting.backend = "plotly"
然后,要获得无花果,您只需写下:
fig = df.plot()
fig.show()
显示上图。