【机器学习】强化学习

打印 上一主题 下一主题

主题 1518|帖子 1518|积分 4554

强化学习(Reinforcement Learning, RL)是一种机器学习方法,焦点思想是通过试错来学习最优策略,以最大化长期收益(奖励)。它模仿了人类或动物在与环境交互中学习决策的方式。
一、强化学习定义

1. 强化学习的根本概念

强化学习问题通常被建模为马尔可夫决策过程(Markov Decision Process, MDP),其焦点包括:

  • 智能体(Agent):学习的主体,好比机器人、自动驾驶汽车、游戏 AI 等。
  • 环境(Environment):智能体所处的世界,它可以是物理环境(实际世界)或虚拟环境(游戏、金融市场等)。
  • 状态(State, S):描述环境当前的环境。例如,在自动驾驶中,状态可能包括道路状况、速度、停滞物位置等。
  • 动作(Action, A):智能体可以采取的举动。例如,在游戏中,可能的动作包括“移动左、移动右、跳跃”等。
  • 奖励(Reward, R):环境根据智能体的举动给予的反馈。奖励可以是正向(鼓励)负向(惩罚)
  • 策略(Policy, π(a|s)):智能体在状态 S下选择动作 A 的规则,可以是确定性随机性的。
  • 价值函数(Value Function, V(s)):表示在某个状态 S 下,长期可能得到的奖励。
  • Q值函数(Q-value Function, Q(s, a)):表示在某个状态 S 下,执举措作 A 后,长期可能得到的奖励。
目标
智能体的目标是学习最优策略 π* ,使得它在长期内得到的奖励最大化

此中,

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

张国伟

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表