(Vowpal Wabbit) 上下文强盗问题中的 cb 模式
(Vowpal Wabbit) cb mode in contextual bandit problem
我有两个关于在 Vowpal Wabbit 中使用上下文强盗模式的快速问题。
1) --cb
模式是否输出确定性策略,贪婪地选择给定训练数据集学到的最佳动作?因此,选择该动作的概率为 1,所有其他动作的概率为 0。
2) 不知--cb_explore
的策略学习过程背后的理论背景是什么?我知道 -cb
的策略学习过程来自 https://arxiv.org/pdf/1103.4601.pdf。 --cb_explore
是否使用相同的过程?由于--cb_explore
基本上是一个非平稳策略,我认为它应该使用不同的过程。
快速解答:
- 基本上是的,在给定 特定上下文 的情况下,具有最佳(已知)奖励的动作获胜。但是请注意,使用
--cb
学习也支持 --epsilon <portion>
(epsilon-greedy 探索算法)。在第一次学习期间,部分动作-space 用于进一步探索(与对已知内容的纯粹贪婪利用相反)。
- 支持多种探索与利用算法以及每个算法的一些进一步的超参数,具体取决于命令行选项
更详细的答案来自 vowpalwabbit.org
注意:vowpalwabbit.org 是有关 vw
.
中上下文强盗的进一步信息的极好资源
Vowpal Wabbit supports three (3) contextual bandit base-algorithms:
--cb
contextual bandit 模块,允许您根据已收集的数据或无需探索的上下文 bandits 优化预测器。
--cb_explore
上下文强盗学习算法,用于提前知道最大动作数并且动作的语义在示例中保持相同。
--cb_explore_adf
上下文老虎机学习算法,适用于动作集随时间变化或您对每个动作都有丰富信息的情况。 Vowpal Wabbit 为上下文强盗提供不同的输入格式。
When exploration is in effect, Vowpal Wabbit offers five (5) exploration algorithms:
- 先探索:
--first
- Epsilon-贪婪:
--epsilon
- 装袋浏览器:
--bag
- 在线封面:
--cover
- Softmax 资源管理器:
--softmax
(仅支持 --cb_explore_adf
)
Working examples which include:
- 完整命令行
- 输入数据
- 预期输出
对于每个选项,都可以在文件 tests/RunTests 的源树中找到,向下滚动到 __DATA__
部分可以找到许多命令示例。
我有两个关于在 Vowpal Wabbit 中使用上下文强盗模式的快速问题。
1) --cb
模式是否输出确定性策略,贪婪地选择给定训练数据集学到的最佳动作?因此,选择该动作的概率为 1,所有其他动作的概率为 0。
2) 不知--cb_explore
的策略学习过程背后的理论背景是什么?我知道 -cb
的策略学习过程来自 https://arxiv.org/pdf/1103.4601.pdf。 --cb_explore
是否使用相同的过程?由于--cb_explore
基本上是一个非平稳策略,我认为它应该使用不同的过程。
快速解答:
- 基本上是的,在给定 特定上下文 的情况下,具有最佳(已知)奖励的动作获胜。但是请注意,使用
--cb
学习也支持--epsilon <portion>
(epsilon-greedy 探索算法)。在第一次学习期间,部分动作-space 用于进一步探索(与对已知内容的纯粹贪婪利用相反)。 - 支持多种探索与利用算法以及每个算法的一些进一步的超参数,具体取决于命令行选项
更详细的答案来自 vowpalwabbit.org
注意:vowpalwabbit.org 是有关 vw
.
Vowpal Wabbit supports three (3) contextual bandit base-algorithms:
--cb
contextual bandit 模块,允许您根据已收集的数据或无需探索的上下文 bandits 优化预测器。--cb_explore
上下文强盗学习算法,用于提前知道最大动作数并且动作的语义在示例中保持相同。--cb_explore_adf
上下文老虎机学习算法,适用于动作集随时间变化或您对每个动作都有丰富信息的情况。 Vowpal Wabbit 为上下文强盗提供不同的输入格式。
When exploration is in effect, Vowpal Wabbit offers five (5) exploration algorithms:
- 先探索:
--first
- Epsilon-贪婪:
--epsilon
- 装袋浏览器:
--bag
- 在线封面:
--cover
- Softmax 资源管理器:
--softmax
(仅支持--cb_explore_adf
)
Working examples which include:
- 完整命令行
- 输入数据
- 预期输出
对于每个选项,都可以在文件 tests/RunTests 的源树中找到,向下滚动到 __DATA__
部分可以找到许多命令示例。