从稳定基线绘制熵、平均奖励等
Plot entropy, avg rewards etc from Stable Baselines
我通过实施 StableBaselines
中的 step, reset and render
方法构建了自定义环境,但我不知道如何打印一些绘图。
例如,我的代理人(在离散操作中 space)执行了多少次操作 = 0、1、2 等...
环境给了什么信号
奖励如何变动?
我找到了大约 results_plotter,但找不到很多信息。
results_plotter.plot_results(["."], 10e6, results_plotter.X_TIMESTEPS, "Market rewards")
目前没有为此预制的工具。查看 Monitor 包装器以及它如何跟踪情节奖励。它将生成一个日志文件,您可以使用它来获取一些指标。这是我最好的选择。
我建议您也看看 Tensorboard,因为它可能会提供一些实时信息。
我通过实施 StableBaselines
中的 step, reset and render
方法构建了自定义环境,但我不知道如何打印一些绘图。
例如,我的代理人(在离散操作中 space)执行了多少次操作 = 0、1、2 等...
环境给了什么信号
奖励如何变动?
我找到了大约 results_plotter,但找不到很多信息。
results_plotter.plot_results(["."], 10e6, results_plotter.X_TIMESTEPS, "Market rewards")
目前没有为此预制的工具。查看 Monitor 包装器以及它如何跟踪情节奖励。它将生成一个日志文件,您可以使用它来获取一些指标。这是我最好的选择。
我建议您也看看 Tensorboard,因为它可能会提供一些实时信息。