MIT 深度流量挑战中的奖励函数？

Reward Function in MIT Deep Traffic Challenge?

我一直在玩 MIT DeepTraffic Challenge 还有watching the lecture and reading the slides

在对架构有了大致的了解后，我想知道环境给出的奖励函数到底是什么。

是否与网格单元的输入（最大可行驶速度）相同？
他们是否在使用 Reward Clipping？

我也发现了这个 javascript Codebase，这对我的理解也没有多大帮助。

奖励是区间内平均速度的比例： [-3, 3].

deeptraffic环境的实现位于这个文件中： https://selfdrivingcars.mit.edu/deeptraffic/gameopt.js

我正在努力使其可读。这是 WIP 之一： https://github.com/mljack/deeptraffic/blob/master/gameopt.js

    var reward = (avgSpeedMeasurement - 60) / 20;