强化学习(Reinforcement Learning, RL)是一种机器学习方法,焦点思想是通过试错来学习最优策略,以最大化长期收益(奖励)。它模仿了人类或动物在与环境交互中学习决策的方式。
一、强化学习定义
1. 强化学习的根本概念
强化学习问题通常被建模为马尔可夫决策过程(Markov Decision Process, MDP),其焦点包括:
- 智能体(Agent):学习的主体,好比机器人、自动驾驶汽车、游戏 AI 等。
- 环境(Environment):智能体所处的世界,它可以是物理环境(实际世界)或虚拟环境(游戏、金融市场等)。
- 状态(State, S):描述环境当前的环境。例如,在自动驾驶中,状态可能包括道路状况、速度、停滞物位置等。
- 动作(Action, A):智能体可以采取的举动。例如,在游戏中,可能的动作包括“移动左、移动右、跳跃”等。
- 奖励(Reward, R):环境根据智能体的举动给予的反馈。奖励可以是正向(鼓励)或负向(惩罚)。
- 策略(Policy, π(a|s)):智能体在状态 S下选择动作 A 的规则,可以是确定性或随机性的。
- 价值函数(Value Function, V(s)):表示在某个状态 S 下,长期可能得到的奖励。
- Q值函数(Q-value Function, Q(s, a)):表示在某个状态 S 下,执举措作 A 后,长期可能得到的奖励。
目标:
智能体的目标是学习最优策略 π* ,使得它在长期内得到的奖励最大化:
此中, |