MIT 深度流量挑战中的奖励函数?

Reward Function in MIT Deep Traffic Challenge?

我一直在玩 MIT DeepTraffic Challenge 还有watching the lecture and reading the slides

在对架构有了大致的了解后,我想知道环境给出的奖励函数到底是什么。

  1. 是否与网格单元的输入(最大可行驶速度)相同?
  2. 他们是否在使用 Reward Clipping?

我也发现了这个 javascript Codebase,这对我的理解也没有多大帮助。

奖励是区间内平均速度的比例: [-3, 3].

deeptraffic环境的实现位于这个文件中: https://selfdrivingcars.mit.edu/deeptraffic/gameopt.js

我正在努力使其可读。这是 WIP 之一: https://github.com/mljack/deeptraffic/blob/master/gameopt.js

    var reward = (avgSpeedMeasurement - 60) / 20;