我可以计算 p 值并使用 plotly 添加星号吗?

Can I calculate the p-value and add asterisk using plotly?

例如,我们有包含列 daytotal_billsex 的数据集 tips。 我想可视化箱线图 (x=day, y=total_bill,color=sex)。之后我想计算女性和男性参与者之间每天的测试和 p 值。如果 p 值 < 0.05,我想添加星号。我怎样才能更改下面的代码?

在这个例子中,不同天数之间没有做爱的比较:

from scipy import stats
import plotly.express as px
import plotly.graph_objects as go

tips = px.data.tips()

fig = go.Figure()
for day in ['Thur','Fri','Sat','Sun']:
    fig.add_trace(go.Box(
        y=tips[tips['day'] == day].total_bill,
        name=day,
        boxpoints='outliers'
    ))

def add_pvalue_annotation(days, y_range, symbol=''):
    """
    arguments:
    days --- a list of two different days e.g. ['Thur','Sat']
    y_range --- a list of y_range in the form [y_min, y_max] in paper units
    """
    pvalue = stats.ttest_ind(
        tips[tips['day']==days[0]].total_bill,
        tips[tips['day']==days[1]].total_bill)[1]
    # print(pvalue)
    if pvalue >= 0.05:
        symbol = 'ns'
    if pvalue < 0.05:
        symbol = '*'
    fig.add_shape(type="line",
        xref="x", yref="paper",
        x0=days[0], y0=y_range[0], x1=days[0], y1=y_range[1],
        line=dict(
            color="black",
            width=2,
        )
    )
    fig.add_shape(type="line",
        xref="x", yref="paper",
        x0=days[0], y0=y_range[1], x1=days[1], y1=y_range[1],
        line=dict(
            color="black",
            width=2,
        )
    )
    fig.add_shape(type="line",
        xref="x", yref="paper",
        x0=days[1], y0=y_range[1], x1=days[1], y1=y_range[0],
        line=dict(
            color="black",
            width=2,
        )
    )
    ## add text at the correct x, y coordinates
    ## for bars, there is a direct mapping from the bar number to 0, 1, 2...
    bar_xcoord_map = {x: idx for idx, x in enumerate(['Thur','Fri','Sat','Sun'])}
    fig.add_annotation(dict(font=dict(color="black",size=14),
        x=(bar_xcoord_map[days[0]] + bar_xcoord_map[days[1]])/2,
        y=y_range[1]*1.03,
        showarrow=False,
        text=symbol,
        textangle=0,
        xref="x",
        yref="paper"
    ))

add_pvalue_annotation(['Thur','Sun'],[1.01,1.02])
add_pvalue_annotation(['Thur','Sat'],[1.05,1.06])

fig.show()

我在这里找到了这个有用的例子:

设置箱线图时,使用 plotly.express 中的 px.box 会很有用,因为您可以传递参数 color="sex",这将为每天的每个性别创建两个箱线图.您还需要对 tips DataFrame 进行排序,以便按顺序绘制星期几。

然后可以修改 add_pvalue_annotation 函数,这样我们就可以计算每天男性和女性之间 t 检验的 p 值(而不是不同日期的提示之间的 t 检验)星期)。您还需要更改注释的起点和终点,以便它们在同一天的男性和女性类别之间,而不是在不同的日期之间。

对于 tips 数据集,我 运行 在一周中的每一天对男性和女性进行 t 检验(例如男性和女性在周四,男性和女性在周五... ),并且 none 的 p 值低于 0.05。

但是,为了证明 add_pvalue_annotation 函数会正确放置注释,我将 p 值阈值设置为 0.15,以便周五男女之间的 p 值 (p-value = 0.13)会在图表上注明。

from scipy import stats
import plotly.express as px
import plotly.graph_objects as go
from pandas.api.types import CategoricalDtype

tips = px.data.tips()
cat_order = ['Thur', 'Fri', 'Sat', 'Sun']
cat_weekdays = CategoricalDtype(cat_order, ordered=True)
tips['day'] = tips['day'].astype(cat_weekdays)
tips.sort_values(by='day', inplace=True)

fig = px.box(tips, x="day", y="total_bill", color="sex")

def add_pvalue_annotation(day, y_range, symbol='', pvalue_th=0.05):
    """
    arguments:
    days --- the day for which you want to calculate the p-value on a t-test between Men and Women (e.g. 'Thur')
    x_coordinate --- the x-coordinate 
    y_range --- a list of y_range in the form [y_min, y_max] in paper units
    """
    pvalue = stats.ttest_ind(
        tips[(tips['day']==day) & (tips['sex'] == 'Male')].total_bill,
        tips[(tips['day']==day) & (tips['sex'] == 'Female')].total_bill
    )[1]

    # print(f"pvalue between men and women on {day}: {pvalue}")
    # if pvalue >= pvalue_th:
    #      symbol = 'ns'

    if pvalue < pvalue_th:
        ## for bars, there is a direct mapping from the bar number to 0, 1, 2...
        bar_xcoord_map = {x: idx for idx, x in enumerate(cat_order)}
        x_coordinate = bar_xcoord_map[day]
        x_start, x_end = x_coordinate - 0.2, x_coordinate + 0.2
        symbol = '*'
        fig.add_shape(type="line",
            xref="x", yref="paper",
            x0=x_start, y0=y_range[0], x1=x_start, y1=y_range[1],
            line=dict(
                color="black",
                width=2,
            )
        )
        fig.add_shape(type="line",
            xref="x", yref="paper",
            x0=x_start, y0=y_range[1], x1=x_end, y1=y_range[1],
            line=dict(
                color="black",
                width=2,
            )
        )
        fig.add_shape(type="line",
            xref="x", yref="paper",
            x0=x_end, y0=y_range[1], x1=x_end, y1=y_range[0],
            line=dict(
                color="black",
                width=2,
            )
        )
        ## add text at the correct x, y coordinates
        fig.add_annotation(dict(font=dict(color="black",size=14),
            x=x_coordinate,
            y=y_range[1]*1.03,
            showarrow=False,
            text=symbol,
            textangle=0,
            xref="x",
            yref="paper"
        ))

for day in cat_order:
    add_pvalue_annotation(day, [1.01,1.02], pvalue_th=0.15)

fig.show()