强化学习 - 开车到航路点
reinforcement learning - drive to waypoint
我正在玩 PC 游戏中的自动驾驶汽车。我正在考虑使用强化学习,并在地图上给汽车一个位置。奖励将是与航路点距离的函数,如果汽车发生碰撞,奖励将是非常负面的。
虽然我无法真正了解如何将航路点添加到系统中。我正在使用来自汽车的摄像头输入作为模型的输入,我可以根据它的当前位置和航路点计算奖励……但我并不总是希望汽车开到同一个地方。 .. 我想给它一个路标,让它开到那里而不会撞到任何东西。
如何将航路点和当前位置合并到状态/模型中?
防撞
为了防止汽车碰撞,您需要激励代理在避免碰撞的每一步都采取行动。这可以通过让你的奖励函数包含车道偏差和高重力惩罚等因素,以及接近航路点的积极奖励来实现。
状态参数
考虑状态的一种方法是 - 一组参数,可用于选择最大化(折扣累积)奖励的动作。在这方面,航路点和当前位置并不能提供太多信息,考虑到仅给定您当前的位置和目的地就没有可供选择的最佳操作。当前的最佳动作取决于速度、加速度、油门、到车道中心的距离等因素。您最好将这些记录为您的状态参数。
看看 environment used by DeepDrive,一个用于测试自动驾驶汽车模拟的平台。请注意它如何在其奖励函数中结合避免碰撞、最小化目的地距离和最大化对道路的依从性,以及状态参数的选择。
我正在玩 PC 游戏中的自动驾驶汽车。我正在考虑使用强化学习,并在地图上给汽车一个位置。奖励将是与航路点距离的函数,如果汽车发生碰撞,奖励将是非常负面的。
虽然我无法真正了解如何将航路点添加到系统中。我正在使用来自汽车的摄像头输入作为模型的输入,我可以根据它的当前位置和航路点计算奖励……但我并不总是希望汽车开到同一个地方。 .. 我想给它一个路标,让它开到那里而不会撞到任何东西。
如何将航路点和当前位置合并到状态/模型中?
防撞
为了防止汽车碰撞,您需要激励代理在避免碰撞的每一步都采取行动。这可以通过让你的奖励函数包含车道偏差和高重力惩罚等因素,以及接近航路点的积极奖励来实现。
状态参数
考虑状态的一种方法是 - 一组参数,可用于选择最大化(折扣累积)奖励的动作。在这方面,航路点和当前位置并不能提供太多信息,考虑到仅给定您当前的位置和目的地就没有可供选择的最佳操作。当前的最佳动作取决于速度、加速度、油门、到车道中心的距离等因素。您最好将这些记录为您的状态参数。
看看 environment used by DeepDrive,一个用于测试自动驾驶汽车模拟的平台。请注意它如何在其奖励函数中结合避免碰撞、最小化目的地距离和最大化对道路的依从性,以及状态参数的选择。