(如何)我可以对已经看到的数据使用强化学习?
(How) can I use reinforcement learning for already seen data?
大多数教程和 RL 课程侧重于教授如何将模型(例如 Q-Learning)应用到环境(健身房环境)中,人们可以输入状态以获得一些输出/奖励
如何在无法获取新数据的情况下将 RL 用于历史数据? (例如,从一个庞大的拍卖数据集中,我如何使用 RL 得出最佳策略)
如果您的数据集由时间序列等组成,您可以将每个时刻设置为您的状态。然后,您可以让您的代理探索数据系列以学习其策略。
如果您的数据集已经标有动作,您可以在其上训练代理以了解这些动作背后的警察。
诀窍是为您的智能体提供每个连续的瞬间,就好像它在实时探索一样。
当然,你需要根据每个瞬间的信息对不同的状态进行建模。
大多数教程和 RL 课程侧重于教授如何将模型(例如 Q-Learning)应用到环境(健身房环境)中,人们可以输入状态以获得一些输出/奖励
如何在无法获取新数据的情况下将 RL 用于历史数据? (例如,从一个庞大的拍卖数据集中,我如何使用 RL 得出最佳策略)
如果您的数据集由时间序列等组成,您可以将每个时刻设置为您的状态。然后,您可以让您的代理探索数据系列以学习其策略。
如果您的数据集已经标有动作,您可以在其上训练代理以了解这些动作背后的警察。
诀窍是为您的智能体提供每个连续的瞬间,就好像它在实时探索一样。
当然,你需要根据每个瞬间的信息对不同的状态进行建模。