强化学习、深度学习、深度强化学习有什么区别?

What's the difference between reinforcement learning, deep learning, and deep reinforcement learning?

强化学习、深度学习、深度强化学习有什么区别? Q 学习适合什么地方?

强化学习是指教代理人使用奖励在环境中导航。 Q-learning 是主要的强化学习方法之一。

深度学习使用神经网络来实现某个目标,例如从图像中识别字母和单词。

深度强化学习是两者的结合,以Q-learning为基础。但是,这不是使用实际的状态-值对,而是经常用于状态-动作 space 太大以至于 Q-learning 收敛需要很长时间的环境中。通过使用神经网络,我们可以找到其他相似的状态-动作对。这种“函数近似”允许在具有非常大的状态动作 spaces.

的环境中进行有效学习

强化学习是指面向完成的算法,它学习如何获得协调化合物 objective(目标)或通过许多步骤沿特定维度最大化。强化学习背后的基本主题是,代理角色将通过与环境交互并从执行动作中获得奖励来从环境中学习。

深度学习使用多层非线性处理单元来提取特征和变换

深度强化学习方法引入深度神经网络来解决强化学习问题,因此被命名为“深度”。

深度学习是一种利用神经网络做函数逼近器来解决各种问题的方法。 例如:学习一个以图像作为输入并输出图像中对象的边界框的函数。

强化学习 是一个我们有代理的领域,我们希望该代理执行任务,即我们使用试错学习方法的基于目标的问题。 例如:智能体学习从网格世界的一个位置移动到目标位置,而不会掉入中间的坑中。

深度强化学习 是一种使用神经网络解决基于目标的问题的方法。这是因为,当我们希望智能体在现实世界或当前游戏中执行任务时,状态 space 非常大。 代理甚至访问每个状态一次都需要很长时间,我们不能使用查找表来存储值函数。 因此,为了解决这个问题,我们使用神经网络来近似状态以概括学习过程 例如:我们使用 DQN 来解决许多 atari 游戏。

Q-learning :这是一种时间差异学习方法,我们有一个 Q-table 来寻找当前状态下可能的最佳动作Q值函数。 为了学习 Q 值,我们使用奖励和最大可能的下一状态 Q 值。

Q-learning基本上属于强化学习,它的深度强化学习模拟是深度Q网络(DQN)。

机器学习 方法的目标是从数据中学习规则并据此做出预测 and/or 决策。

学习过程可以在a(n) supervised, semi-supervised, unsupervised, 强化学习时装。

强化学习 (RL) 中,代理与环境交互并通过反复试验学习最佳策略(对成功的行为使用奖励积分,对错误使用惩罚) .它用于顺序决策问题 [1].

深度学习 作为机器学习的一个子领域,是一种数学框架,用于学习数据中的潜在规则或手头数据的新表示。术语 "deep" 指的是框架中的学习层数。深度学习可以与上述任何学习策略一起使用,即监督学习、半监督学习、无监督学习和强化学习。

当强化学习的任何组件使用深度学习时,都会获得 深度强化学习 技术 [1]。请注意,Q-learning 是 RL 的一个组成部分,用于告诉代理在什么情况下需要采取什么行动。详细信息可以在[1]中找到。

[1]李玉玺。 "Deep reinforcement learning: An overview." arXiv 预印本 arXiv:1701.07274 (2017).

强化学习和监督学习之间有更多区别,两者都可以使用深度神经网络,也就是深度学习。在监督学习中——训练集由人类标记(例如 AlphaGo)。在强化学习中(例如 AlphaZero)- 算法是自学的。

简单来说,

深度学习 - 它使用神经网络模型(模仿大脑、神经元),深度学习也用于图像分类、数据分析和强化学习。

强化学习 - 这是机器学习的一个分支,它围绕着一个代理(例如:清理机器人)在其环境中采取行动(例如:四处移动搜索垃圾) (例如:家)和获得奖励(例如:收集垃圾)

深度强化学习 - 这是强化学习算法列表中的一种,该算法利用深度学习概念。

强化学习 (RL) 是一种主要受系统反馈控制驱动的机器学习。 RL 通常被认为是一种最优控制,它通过与 system/environment 交互并获得反馈来学习。 RL 通常用单个 time-step/multi 时间步长学习规则代替计算量大的动态规划方法。 RL 中流行的时间差分方法被认为介于动态规划和 monte carlo 方法之间。经典 RL 方法使用不可扩展的表格算法。

深度学习 (DL) 被认为是现代机器学习的重要组成部分(经典机器学习通常指 SVM、线性回归等)。深度学习使用具有反向传播的深度多层神经网络 (NN) 进行学习。通过使用精心设计的深度神经网络,可以学习复杂的输入输出关系。由于这种逼近非常复杂的函数的 属性,深度学习在最近几年(2010 年左右)非常流行,尤其是在自然语言任务和计算机视觉任务中。 DL 的一个吸引人的方面是这些模型可以是端到端的,这意味着我们不需要进行手动特征工程。深度学习算法种类繁多,如深度神经网络、卷积神经网络、GRU、LSTM、GAN、attention、transfromer等

Deep RL 使用深度神经网络架构来代替表格方法来解决非常高维的问题。通俗地说,控制器不再是 table 查找,而是我们使用深度神经网络作为控制器。由于在 RL 中利用深度神经网络,这通常被称为深度 RL。