DRL 中看起来很奇怪的曲线

Weird-looking curve in DRL

我有一个与自定义环境交互的深度强化学习代理,我使用 tensorboard 显示每一集的奖励值。 曲线看起来像这样

不知道为什么每次从第17步跳到第80步我都不明白为什么,我什至不知道我应该把代码的哪一部分复制粘贴到这里。

有人知道它为什么这样做吗?

原来步数在其他地方增加了,评论那一行,现在工作正常。