(Vowpal Wabbit) 上下文强盗问题中的 cb 模式

(Vowpal Wabbit) cb mode in contextual bandit problem

vowpalwabbit

我有两个关于在 Vowpal Wabbit 中使用上下文强盗模式的快速问题。

1) --cb 模式是否输出确定性策略，贪婪地选择给定训练数据集学到的最佳动作？因此，选择该动作的概率为 1，所有其他动作的概率为 0。

2) 不知--cb_explore的策略学习过程背后的理论背景是什么？我知道 -cb 的策略学习过程来自 https://arxiv.org/pdf/1103.4601.pdf。 --cb_explore 是否使用相同的过程？由于--cb_explore基本上是一个非平稳策略，我认为它应该使用不同的过程。

快速解答：

基本上是的，在给定 特定上下文 的情况下，具有最佳（已知）奖励的动作获胜。但是请注意，使用 --cb 学习也支持 --epsilon <portion>（epsilon-greedy 探索算法）。在第一次学习期间，部分动作-space 用于进一步探索（与对已知内容的纯粹贪婪利用相反）。
支持多种探索与利用算法以及每个算法的一些进一步的超参数，具体取决于命令行选项

更详细的答案来自 vowpalwabbit.org

注意：vowpalwabbit.org 是有关 vw.

中上下文强盗的进一步信息的极好资源

Vowpal Wabbit supports three (3) contextual bandit base-algorithms:

--cb contextual bandit 模块，允许您根据已收集的数据或无需探索的上下文 bandits 优化预测器。
--cb_explore上下文强盗学习算法，用于提前知道最大动作数并且动作的语义在示例中保持相同。
--cb_explore_adf 上下文老虎机学习算法，适用于动作集随时间变化或您对每个动作都有丰富信息的情况。 Vowpal Wabbit 为上下文强盗提供不同的输入格式。

When exploration is in effect, Vowpal Wabbit offers five (5) exploration algorithms:

先探索：--first
Epsilon-贪婪：--epsilon
装袋浏览器：--bag
在线封面：--cover
Softmax 资源管理器：--softmax（仅支持 --cb_explore_adf）

Working examples which include:

完整命令行
输入数据
预期输出

对于每个选项，都可以在文件 tests/RunTests 的源树中找到，向下滚动到 __DATA__ 部分可以找到许多命令示例。