TF-Agents Deep Q Learning:如何提取 state/action 对的预测值?

TF-Agents Deep Q Learning: How to extract predicted value for state/action pair?

我有一个使用函数 SavedModelPyTFEagerPolicy 从磁盘读取的策略。为了对环境定义进行故障排除,我想检查不同状态的预测值。

我已成功使用 从测试用例的策略中提取操作。是否有一个函数可以让我提取与这些动作相关的预测值?

查看 Tensorflow DQN Agent documentation 您在创建时将 q 网络交给代理。这被保存为名称为 _q_network 的实例变量,可以使用 agent._q_network 访问。引用文档:

The network will be called with call(observation, step_type) and should emit logits over the action space.

这些 logits 是您各自的状态操作值。