DQN(Deep QNetwork) 原理与代码实例解说

瑞星  金牌会员 | 2024-10-2 14:11:28 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 869|帖子 869|积分 2607

DQN(Deep Q-Network) - 原理与代码实例解说

1. 背景介绍

1.1 强化学习概述

强化学习(Reinforcement Learning, RL)是机器学习的一个告急分支,它主要研究如何让智能体(Agent)通过与环境的交互来学习最优策略,以获得最大的累积嘉奖。与监督学习和无监督学习不同,强化学习不必要预先准备好标注数据,而是通过智能体与环境的交互过程中不断试错和学习,终极学到最优策略。
1.2 Q-Learning 算法

Q-Learning 是一种经典的无模型、离线策略强化学习算法。它通过学习动作-状态值函数 Q(s,a) 来找到最优策略。Q(s,a) 表现在状态 s 下接纳动作 a 可以获得的盼望将来累积嘉奖。Q-Learning 的焦点是通过不断更新 Q 值来逼近最优 Q 函数 Q*(s,a)。
1.3 DQN 的提出

尽管 Q-Learning 在一些简朴环境中取得了不错的效果,但在面对大状态空间问题时,存储 Q 表变得不实际。为了解决这一问题,DeepMind 在 2013 年提出了 DQN(Deep Q-Network)[1],通过深度神经网络来拟合 Q 函数,使得 Q-Learning 可以应用到更加复杂的环境中。DQN 的提出掀起了深度强化学习的研究高潮。
2. 焦点概念与联系

2.1 M


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

瑞星

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表