cb_explore 输入格式:在训练中使用提供概率值

cb_explore input format : Use of providing probability value in training

cb_explore 输入格式需要为每个示例指定 action:cost:action_probability。 然而,其中的 cb 算法已经在尝试学习最优策略,即从数据中学习每个动作的概率。那么,为什么它需要输入中每个动作的概率呢?难道只是为了初始化?

如果我没理解错的话,你是在问为什么与 cb_explore 关联的标签是一组 action/probability 对。

标签动作的概率作为训练的重要性权重。这具有放大不太频繁执行的动作更新的效果,使它们不太可能被更频繁执行的动作淹没。

此外,这种类型的标签在预测期间非常有用,因为它生成的日志可用于执行无偏见的反事实分析。换句话说,通过在采样之前记录每个动作的概率(参见 cb_sample - 这实现了如何对单个 action/probability 向量进行采样,例如在 ccb 缩减中:https://github.com/VowpalWabbit/vowpal_wabbit/blob/master/vowpalwabbit/cb_sample.cc#L37), 然后我们可以使用日志来训练另一个策略,并将它的性能与原始策略进行比较。

请参阅 "A Multi-World Testing Decision Service" 论文来描述使用记录数据进行无偏见离线实验的机制:https://arxiv.org/pdf/1606.03966v1.pdf