TF-Agents Deep Q Learning:如何提取 state/action 对的预测值?
TF-Agents Deep Q Learning: How to extract predicted value for state/action pair?
我有一个使用函数 SavedModelPyTFEagerPolicy 从磁盘读取的策略。为了对环境定义进行故障排除,我想检查不同状态的预测值。
我已成功使用 从测试用例的策略中提取操作。是否有一个函数可以让我提取与这些动作相关的预测值?
查看 Tensorflow DQN Agent documentation 您在创建时将 q 网络交给代理。这被保存为名称为 _q_network
的实例变量,可以使用 agent._q_network
访问。引用文档:
The network will be called with call(observation, step_type) and should emit logits over the action space.
这些 logits 是您各自的状态操作值。
我有一个使用函数 SavedModelPyTFEagerPolicy 从磁盘读取的策略。为了对环境定义进行故障排除,我想检查不同状态的预测值。
我已成功使用
查看 Tensorflow DQN Agent documentation 您在创建时将 q 网络交给代理。这被保存为名称为 _q_network
的实例变量,可以使用 agent._q_network
访问。引用文档:
The network will be called with call(observation, step_type) and should emit logits over the action space.
这些 logits 是您各自的状态操作值。