首页
标签

markov-decision-process

在 Networkx Graph 上绘制边值
MDP 的整形定理
从均匀分布中抽样时没有方法匹配 logpdf
网格世界中的终端状态是什么？
Sutton 的 RL 书中的 Gridworld：如何计算角单元的值函数？
为什么在循环内部或外部初始化变量会改变代码行为？
为什么老虎机问题在强化学习中也被称为 one-step/state MDP？
如何将 UNO 建模为 POMDP
使用 MDP 进行强化学习以优化收入
从看到的转换中确定 MDP
迷宫的 MDP 政策图
为什么我们需要在 RL（Q-Learning）中进行开发以实现收敛？
如何在非平稳环境中求解确定性 MDP
带策略的状态值和状态动作值 - 带策略的贝尔曼方程
POMDP 中的 "controllable actions" 是什么意思？
从状态 s 采取行动 a 后，结果是概率性的还是确定性的？
强化学习中的策略是什么？

©2023 WhoseBug