从稳定基线绘制熵、平均奖励等

Plot entropy, avg rewards etc from Stable Baselines

我通过实施 StableBaselines 中的 step, reset and render 方法构建了自定义环境,但我不知道如何打印一些绘图。

例如,我的代理人(在离散操作中 space)执行了多少次操作 = 0、1、2 等...

环境给了什么信号

奖励如何变动?

我找到了大约 results_plotter,但找不到很多信息。

results_plotter.plot_results(["."], 10e6, results_plotter.X_TIMESTEPS, "Market rewards")

目前没有为此预制的工具。查看 Monitor 包装器以及它如何跟踪情节奖励。它将生成一个日志文件,您可以使用它来获取一些指标。这是我最好的选择。

我建议您也看看 Tensorboard,因为它可能会提供一些实时信息。