使用 Altair 直接标记线图

Direct labeling a line plot with Altair

我正在 Altair (4.1.0) 中绘制折线图,​​并且想使用直接标记(注释)而不是常规图例。
因此,每一行的文本标记(比如,时间序列)应该只出现一次,并且出现在 x 轴的最右边(而不是 this scatter plot example labeling every data point)。
虽然我能够使用 pandas 来操纵数据以获得所需的结果,但我认为使用纯 Altair 实现会更优雅,但我似乎无法正确处理。

例如,给定以下数据:

import numpy as np
import pandas as pd
import altair as alt

np.random.seed(10)
time = pd.date_range(start="10/21/2020", end="10/22/2020", periods=n)
data = pd.concat([
    pd.DataFrame({
        "time": time,
        "group": "One",
        "value": np.random.normal(10, 2, n)}),
    pd.DataFrame({
        "time": time,
        "group": "Two",
        "value": np.random.normal(5, 2, n)}).iloc[:-1]
], ignore_index=True)

我可以使用 pandas 创建一个包含每个组的最后时间点的子集来生成令人满意的结果:

lines = alt.Chart(data).mark_line(
    point=True
).encode(
    x="time:T",
    y="value:Q",
    color=alt.Color("group:N", legend=None),  # Remove legend
)

text_data = data.loc[data.groupby('group')['time'].idxmax()]  # Subset the data for text positions
labels = alt.Chart(text_data).mark_text(
    # some adjustments
).encode(
    x="time:T",
    y="value:Q",
    color="group:N",
    text="group:N"
)

chart = lines + labels

但是,如果我尝试使用主要数据并添加 Altair 聚合,例如使用 x=max(time) 或显式 transform_aggregate(),我要么在所有点上获得文本注释,要么 none完全(分别)。

有没有更好的方法得到上面的结果?

您可以在 y 编码中使用 argmax 聚合来执行此操作。例如,您的标签层可能如下所示:

labels = alt.Chart(data).mark_text(
    align='left', dx=5
).encode(
    x='max(time):T',
    y=alt.Y('value:Q', aggregate={'argmax': 'time'}),
    text='group:N',
    color='group:N',
)