我可以计算 p 值并使用 plotly 添加星号吗?
Can I calculate the p-value and add asterisk using plotly?
例如,我们有包含列 day
、total_bill
和 sex
的数据集 tips
。
我想可视化箱线图 (x=day
, y=total_bill
,color=sex
)。之后我想计算女性和男性参与者之间每天的测试和 p 值。如果 p 值 < 0.05,我想添加星号。我怎样才能更改下面的代码?
在这个例子中,不同天数之间没有做爱的比较:
from scipy import stats
import plotly.express as px
import plotly.graph_objects as go
tips = px.data.tips()
fig = go.Figure()
for day in ['Thur','Fri','Sat','Sun']:
fig.add_trace(go.Box(
y=tips[tips['day'] == day].total_bill,
name=day,
boxpoints='outliers'
))
def add_pvalue_annotation(days, y_range, symbol=''):
"""
arguments:
days --- a list of two different days e.g. ['Thur','Sat']
y_range --- a list of y_range in the form [y_min, y_max] in paper units
"""
pvalue = stats.ttest_ind(
tips[tips['day']==days[0]].total_bill,
tips[tips['day']==days[1]].total_bill)[1]
# print(pvalue)
if pvalue >= 0.05:
symbol = 'ns'
if pvalue < 0.05:
symbol = '*'
fig.add_shape(type="line",
xref="x", yref="paper",
x0=days[0], y0=y_range[0], x1=days[0], y1=y_range[1],
line=dict(
color="black",
width=2,
)
)
fig.add_shape(type="line",
xref="x", yref="paper",
x0=days[0], y0=y_range[1], x1=days[1], y1=y_range[1],
line=dict(
color="black",
width=2,
)
)
fig.add_shape(type="line",
xref="x", yref="paper",
x0=days[1], y0=y_range[1], x1=days[1], y1=y_range[0],
line=dict(
color="black",
width=2,
)
)
## add text at the correct x, y coordinates
## for bars, there is a direct mapping from the bar number to 0, 1, 2...
bar_xcoord_map = {x: idx for idx, x in enumerate(['Thur','Fri','Sat','Sun'])}
fig.add_annotation(dict(font=dict(color="black",size=14),
x=(bar_xcoord_map[days[0]] + bar_xcoord_map[days[1]])/2,
y=y_range[1]*1.03,
showarrow=False,
text=symbol,
textangle=0,
xref="x",
yref="paper"
))
add_pvalue_annotation(['Thur','Sun'],[1.01,1.02])
add_pvalue_annotation(['Thur','Sat'],[1.05,1.06])
fig.show()
我在这里找到了这个有用的例子:
设置箱线图时,使用 plotly.express 中的 px.box
会很有用,因为您可以传递参数 color="sex"
,这将为每天的每个性别创建两个箱线图.您还需要对 tips
DataFrame 进行排序,以便按顺序绘制星期几。
然后可以修改 add_pvalue_annotation
函数,这样我们就可以计算每天男性和女性之间 t 检验的 p 值(而不是不同日期的提示之间的 t 检验)星期)。您还需要更改注释的起点和终点,以便它们在同一天的男性和女性类别之间,而不是在不同的日期之间。
对于 tips
数据集,我 运行 在一周中的每一天对男性和女性进行 t 检验(例如男性和女性在周四,男性和女性在周五... ),并且 none 的 p 值低于 0.05。
但是,为了证明 add_pvalue_annotation
函数会正确放置注释,我将 p 值阈值设置为 0.15,以便周五男女之间的 p 值 (p-value = 0.13
)会在图表上注明。
from scipy import stats
import plotly.express as px
import plotly.graph_objects as go
from pandas.api.types import CategoricalDtype
tips = px.data.tips()
cat_order = ['Thur', 'Fri', 'Sat', 'Sun']
cat_weekdays = CategoricalDtype(cat_order, ordered=True)
tips['day'] = tips['day'].astype(cat_weekdays)
tips.sort_values(by='day', inplace=True)
fig = px.box(tips, x="day", y="total_bill", color="sex")
def add_pvalue_annotation(day, y_range, symbol='', pvalue_th=0.05):
"""
arguments:
days --- the day for which you want to calculate the p-value on a t-test between Men and Women (e.g. 'Thur')
x_coordinate --- the x-coordinate
y_range --- a list of y_range in the form [y_min, y_max] in paper units
"""
pvalue = stats.ttest_ind(
tips[(tips['day']==day) & (tips['sex'] == 'Male')].total_bill,
tips[(tips['day']==day) & (tips['sex'] == 'Female')].total_bill
)[1]
# print(f"pvalue between men and women on {day}: {pvalue}")
# if pvalue >= pvalue_th:
# symbol = 'ns'
if pvalue < pvalue_th:
## for bars, there is a direct mapping from the bar number to 0, 1, 2...
bar_xcoord_map = {x: idx for idx, x in enumerate(cat_order)}
x_coordinate = bar_xcoord_map[day]
x_start, x_end = x_coordinate - 0.2, x_coordinate + 0.2
symbol = '*'
fig.add_shape(type="line",
xref="x", yref="paper",
x0=x_start, y0=y_range[0], x1=x_start, y1=y_range[1],
line=dict(
color="black",
width=2,
)
)
fig.add_shape(type="line",
xref="x", yref="paper",
x0=x_start, y0=y_range[1], x1=x_end, y1=y_range[1],
line=dict(
color="black",
width=2,
)
)
fig.add_shape(type="line",
xref="x", yref="paper",
x0=x_end, y0=y_range[1], x1=x_end, y1=y_range[0],
line=dict(
color="black",
width=2,
)
)
## add text at the correct x, y coordinates
fig.add_annotation(dict(font=dict(color="black",size=14),
x=x_coordinate,
y=y_range[1]*1.03,
showarrow=False,
text=symbol,
textangle=0,
xref="x",
yref="paper"
))
for day in cat_order:
add_pvalue_annotation(day, [1.01,1.02], pvalue_th=0.15)
fig.show()
例如,我们有包含列 day
、total_bill
和 sex
的数据集 tips
。
我想可视化箱线图 (x=day
, y=total_bill
,color=sex
)。之后我想计算女性和男性参与者之间每天的测试和 p 值。如果 p 值 < 0.05,我想添加星号。我怎样才能更改下面的代码?
在这个例子中,不同天数之间没有做爱的比较:
from scipy import stats
import plotly.express as px
import plotly.graph_objects as go
tips = px.data.tips()
fig = go.Figure()
for day in ['Thur','Fri','Sat','Sun']:
fig.add_trace(go.Box(
y=tips[tips['day'] == day].total_bill,
name=day,
boxpoints='outliers'
))
def add_pvalue_annotation(days, y_range, symbol=''):
"""
arguments:
days --- a list of two different days e.g. ['Thur','Sat']
y_range --- a list of y_range in the form [y_min, y_max] in paper units
"""
pvalue = stats.ttest_ind(
tips[tips['day']==days[0]].total_bill,
tips[tips['day']==days[1]].total_bill)[1]
# print(pvalue)
if pvalue >= 0.05:
symbol = 'ns'
if pvalue < 0.05:
symbol = '*'
fig.add_shape(type="line",
xref="x", yref="paper",
x0=days[0], y0=y_range[0], x1=days[0], y1=y_range[1],
line=dict(
color="black",
width=2,
)
)
fig.add_shape(type="line",
xref="x", yref="paper",
x0=days[0], y0=y_range[1], x1=days[1], y1=y_range[1],
line=dict(
color="black",
width=2,
)
)
fig.add_shape(type="line",
xref="x", yref="paper",
x0=days[1], y0=y_range[1], x1=days[1], y1=y_range[0],
line=dict(
color="black",
width=2,
)
)
## add text at the correct x, y coordinates
## for bars, there is a direct mapping from the bar number to 0, 1, 2...
bar_xcoord_map = {x: idx for idx, x in enumerate(['Thur','Fri','Sat','Sun'])}
fig.add_annotation(dict(font=dict(color="black",size=14),
x=(bar_xcoord_map[days[0]] + bar_xcoord_map[days[1]])/2,
y=y_range[1]*1.03,
showarrow=False,
text=symbol,
textangle=0,
xref="x",
yref="paper"
))
add_pvalue_annotation(['Thur','Sun'],[1.01,1.02])
add_pvalue_annotation(['Thur','Sat'],[1.05,1.06])
fig.show()
我在这里找到了这个有用的例子:
设置箱线图时,使用 plotly.express 中的 px.box
会很有用,因为您可以传递参数 color="sex"
,这将为每天的每个性别创建两个箱线图.您还需要对 tips
DataFrame 进行排序,以便按顺序绘制星期几。
然后可以修改 add_pvalue_annotation
函数,这样我们就可以计算每天男性和女性之间 t 检验的 p 值(而不是不同日期的提示之间的 t 检验)星期)。您还需要更改注释的起点和终点,以便它们在同一天的男性和女性类别之间,而不是在不同的日期之间。
对于 tips
数据集,我 运行 在一周中的每一天对男性和女性进行 t 检验(例如男性和女性在周四,男性和女性在周五... ),并且 none 的 p 值低于 0.05。
但是,为了证明 add_pvalue_annotation
函数会正确放置注释,我将 p 值阈值设置为 0.15,以便周五男女之间的 p 值 (p-value = 0.13
)会在图表上注明。
from scipy import stats
import plotly.express as px
import plotly.graph_objects as go
from pandas.api.types import CategoricalDtype
tips = px.data.tips()
cat_order = ['Thur', 'Fri', 'Sat', 'Sun']
cat_weekdays = CategoricalDtype(cat_order, ordered=True)
tips['day'] = tips['day'].astype(cat_weekdays)
tips.sort_values(by='day', inplace=True)
fig = px.box(tips, x="day", y="total_bill", color="sex")
def add_pvalue_annotation(day, y_range, symbol='', pvalue_th=0.05):
"""
arguments:
days --- the day for which you want to calculate the p-value on a t-test between Men and Women (e.g. 'Thur')
x_coordinate --- the x-coordinate
y_range --- a list of y_range in the form [y_min, y_max] in paper units
"""
pvalue = stats.ttest_ind(
tips[(tips['day']==day) & (tips['sex'] == 'Male')].total_bill,
tips[(tips['day']==day) & (tips['sex'] == 'Female')].total_bill
)[1]
# print(f"pvalue between men and women on {day}: {pvalue}")
# if pvalue >= pvalue_th:
# symbol = 'ns'
if pvalue < pvalue_th:
## for bars, there is a direct mapping from the bar number to 0, 1, 2...
bar_xcoord_map = {x: idx for idx, x in enumerate(cat_order)}
x_coordinate = bar_xcoord_map[day]
x_start, x_end = x_coordinate - 0.2, x_coordinate + 0.2
symbol = '*'
fig.add_shape(type="line",
xref="x", yref="paper",
x0=x_start, y0=y_range[0], x1=x_start, y1=y_range[1],
line=dict(
color="black",
width=2,
)
)
fig.add_shape(type="line",
xref="x", yref="paper",
x0=x_start, y0=y_range[1], x1=x_end, y1=y_range[1],
line=dict(
color="black",
width=2,
)
)
fig.add_shape(type="line",
xref="x", yref="paper",
x0=x_end, y0=y_range[1], x1=x_end, y1=y_range[0],
line=dict(
color="black",
width=2,
)
)
## add text at the correct x, y coordinates
fig.add_annotation(dict(font=dict(color="black",size=14),
x=x_coordinate,
y=y_range[1]*1.03,
showarrow=False,
text=symbol,
textangle=0,
xref="x",
yref="paper"
))
for day in cat_order:
add_pvalue_annotation(day, [1.01,1.02], pvalue_th=0.15)
fig.show()