从稳定基线绘制熵、平均奖励等

Question

我通过实施 StableBaselines 中的 step, reset and render 方法构建了自定义环境，但我不知道如何打印一些绘图。

例如，我的代理人（在离散操作中 space）执行了多少次操作 = 0、1、2 等...

环境给了什么信号

奖励如何变动？

我找到了大约 results_plotter，但找不到很多信息。

results_plotter.plot_results(["."], 10e6, results_plotter.X_TIMESTEPS, "Market rewards")

Answer 1

目前没有为此预制的工具。查看 Monitor 包装器以及它如何跟踪情节奖励。它将生成一个日志文件，您可以使用它来获取一些指标。这是我最好的选择。

我建议您也看看 Tensorboard，因为它可能会提供一些实时信息。

Plot entropy, avg rewards etc from Stable Baselines