训练 AI 算法以学习新功能
Training an AI algorithm to learn new features
在研究 AI 时,我只见过 1 个训练周期,然后你的模型就开始学习了,它非常完美。但是,如果数据没有像金融价格或玩游戏这样的真实模式怎么办。那么你的算法就无法学习,你将一无所有。
我对 openAI 进行了一些研究,以及他们如何教 ai 算法玩 Dota 2。一位程序员说,在周末,他教算法如何通过给予奖励来阻止 creeps。他们是拿现有的模型,当角色站在小兵面前时增加一些奖励,然后让它撕裂,它会突然学会一项新技能吗?
没有关于如何做到这一点的信息!它更像是一个渐进式学习系统,而不是一次性训练和完成。请阐明这个过程以及我如何训练金融算法“特征”。
我相信这是结合使用强化学习来完成的。这是随着时间的推移变得更好的那个。和 LTSM 来了解时间序列数据的偏差,至少在预测价格时是这样。如果你想预测 sotck,这应该是一个很好的例子:https://www.kaggle.com/faressayah/stock-market-analysis-prediction-using-lstm 但要注意这是乌托邦......
在线与离线学习
退后一步,从总体上看一下机器学习,了解在线学习和离线学习之间的区别。人工智能只是机器学习子集的一个奇特名称,几乎完全基于神经网络。你说的“一个训练期”叫离线学习,你说的是在线学习。
In computer science, online machine learning is a method of machine learning in which data becomes available in a sequential order and is used to update the best predictor for future data at each step, as opposed to batch learning techniques which generate the best predictor by learning on the entire training data set at once. [https://en.wikipedia.org/wiki/Online_machine_learning]
关键是使用新数据逐步教授您的模型,同时又不让它忘记以前的知识。一个著名的玩具问题是参数变化的非平稳 multi-armed bandit,这是向学生介绍强化学习概念的常用方法。
强化学习
您可以在代理环境模型中制定此问题,在该模型中,您的模型扮演代理的角色,根据当前环境状态(股票价格)从一组操作 (buy/sell) 中进行选择同时最大化奖励函数(投资组合的价值)。最先进的 RL 算法也使用深度学习,因此它们被归类为人工智能,例如 openAI 的 Dota 机器人。
查看深度强化学习以了解更多信息。
在研究 AI 时,我只见过 1 个训练周期,然后你的模型就开始学习了,它非常完美。但是,如果数据没有像金融价格或玩游戏这样的真实模式怎么办。那么你的算法就无法学习,你将一无所有。
我对 openAI 进行了一些研究,以及他们如何教 ai 算法玩 Dota 2。一位程序员说,在周末,他教算法如何通过给予奖励来阻止 creeps。他们是拿现有的模型,当角色站在小兵面前时增加一些奖励,然后让它撕裂,它会突然学会一项新技能吗?
没有关于如何做到这一点的信息!它更像是一个渐进式学习系统,而不是一次性训练和完成。请阐明这个过程以及我如何训练金融算法“特征”。
我相信这是结合使用强化学习来完成的。这是随着时间的推移变得更好的那个。和 LTSM 来了解时间序列数据的偏差,至少在预测价格时是这样。如果你想预测 sotck,这应该是一个很好的例子:https://www.kaggle.com/faressayah/stock-market-analysis-prediction-using-lstm 但要注意这是乌托邦......
在线与离线学习
退后一步,从总体上看一下机器学习,了解在线学习和离线学习之间的区别。人工智能只是机器学习子集的一个奇特名称,几乎完全基于神经网络。你说的“一个训练期”叫离线学习,你说的是在线学习。
In computer science, online machine learning is a method of machine learning in which data becomes available in a sequential order and is used to update the best predictor for future data at each step, as opposed to batch learning techniques which generate the best predictor by learning on the entire training data set at once. [https://en.wikipedia.org/wiki/Online_machine_learning]
关键是使用新数据逐步教授您的模型,同时又不让它忘记以前的知识。一个著名的玩具问题是参数变化的非平稳 multi-armed bandit,这是向学生介绍强化学习概念的常用方法。
强化学习
您可以在代理环境模型中制定此问题,在该模型中,您的模型扮演代理的角色,根据当前环境状态(股票价格)从一组操作 (buy/sell) 中进行选择同时最大化奖励函数(投资组合的价值)。最先进的 RL 算法也使用深度学习,因此它们被归类为人工智能,例如 openAI 的 Dota 机器人。
查看深度强化学习以了解更多信息。