(Vowpal Wabbit) 上下文强盗问题中的 cb 模式

(Vowpal Wabbit) cb mode in contextual bandit problem

我有两个关于在 Vowpal Wabbit 中使用上下文强盗模式的快速问题。

1) --cb 模式是否输出确定性策略,贪婪地选择给定训练数据集学到的最佳动作?因此,选择该动作的概率为 1,所有其他动作的概率为 0。

2) 不知--cb_explore的策略学习过程背后的理论背景是什么?我知道 -cb 的策略学习过程来自 https://arxiv.org/pdf/1103.4601.pdf--cb_explore 是否使用相同的过程?由于--cb_explore基本上是一个非平稳策略,我认为它应该使用不同的过程。

快速解答:

  1. 基本上是的,在给定 特定上下文 的情况下,具有最佳(已知)奖励的动作获胜。但是请注意,使用 --cb 学习也支持 --epsilon <portion>epsilon-greedy 探索算法)。在第一次学习期间,部分动作-space 用于进一步探索(与对已知内容的纯粹贪婪利用相反)。
  2. 支持多种探索与利用算法以及每个算法的一些进一步的超参数,具体取决于命令行选项

更详细的答案来自 vowpalwabbit.org

注意:vowpalwabbit.org 是有关 vw.

中上下文强盗的进一步信息的极好资源

Vowpal Wabbit supports three (3) contextual bandit base-algorithms:

  1. --cb contextual bandit 模块,允许您根据已收集的数据或无需探索的上下文 bandits 优化预测器。
  2. --cb_explore上下文强盗学习算法,用于提前知道最大动作数并且动作的语义在示例中保持相同。
  3. --cb_explore_adf 上下文老虎机学习算法,适用于动作集随时间变化或您对每个动作都有丰富信息的情况。 Vowpal Wabbit 为上下文强盗提供不同的输入格式。

When exploration is in effect, Vowpal Wabbit offers five (5) exploration algorithms:

  • 先探索:--first
  • Epsilon-贪婪:--epsilon
  • 装袋浏览器:--bag
  • 在线封面:--cover
  • Softmax 资源管理器:--softmax(仅支持 --cb_explore_adf

Working examples which include:

  • 完整命令行
  • 输入数据
  • 预期输出

对于每个选项,都可以在文件 tests/RunTests 的源树中找到,向下滚动到 __DATA__ 部分可以找到许多命令示例。