MIT 深度流量挑战中的奖励函数?
Reward Function in MIT Deep Traffic Challenge?
我一直在玩 MIT DeepTraffic Challenge
还有watching the lecture and reading the slides
在对架构有了大致的了解后,我想知道环境给出的奖励函数到底是什么。
- 是否与网格单元的输入(最大可行驶速度)相同?
- 他们是否在使用 Reward Clipping?
我也发现了这个 javascript Codebase,这对我的理解也没有多大帮助。
奖励是区间内平均速度的比例:
[-3, 3].
deeptraffic环境的实现位于这个文件中:
https://selfdrivingcars.mit.edu/deeptraffic/gameopt.js
我正在努力使其可读。这是 WIP 之一:
https://github.com/mljack/deeptraffic/blob/master/gameopt.js
var reward = (avgSpeedMeasurement - 60) / 20;
我一直在玩 MIT DeepTraffic Challenge 还有watching the lecture and reading the slides
在对架构有了大致的了解后,我想知道环境给出的奖励函数到底是什么。
- 是否与网格单元的输入(最大可行驶速度)相同?
- 他们是否在使用 Reward Clipping?
我也发现了这个 javascript Codebase,这对我的理解也没有多大帮助。
奖励是区间内平均速度的比例: [-3, 3].
deeptraffic环境的实现位于这个文件中: https://selfdrivingcars.mit.edu/deeptraffic/gameopt.js
我正在努力使其可读。这是 WIP 之一: https://github.com/mljack/deeptraffic/blob/master/gameopt.js
var reward = (avgSpeedMeasurement - 60) / 20;