张国伟 发表于 2025-3-20 15:33:45

【机器学习】强化学习

强化学习(Reinforcement Learning, RL)是一种机器学习方法,焦点思想是通过试错来学习最优策略,以最大化长期收益(奖励)。它模仿了人类或动物在与环境交互中学习决策的方式。
一、强化学习定义

1. 强化学习的根本概念

强化学习问题通常被建模为马尔可夫决策过程(Markov Decision Process, MDP),其焦点包括:

[*]智能体(Agent):学习的主体,好比机器人、自动驾驶汽车、游戏 AI 等。
[*]环境(Environment):智能体所处的世界,它可以是物理环境(实际世界)或虚拟环境(游戏、金融市场等)。
[*]状态(State, S):描述环境当前的环境。例如,在自动驾驶中,状态可能包括道路状况、速度、停滞物位置等。
[*]动作(Action, A):智能体可以采取的举动。例如,在游戏中,可能的动作包括“移动左、移动右、跳跃”等。
[*]奖励(Reward, R):环境根据智能体的举动给予的反馈。奖励可以是正向(鼓励)或负向(惩罚)。
[*]策略(Policy, π(a|s)):智能体在状态 S下选择动作 A 的规则,可以是确定性或随机性的。
[*]价值函数(Value Function, V(s)):表示在某个状态 S 下,长期可能得到的奖励。
[*]Q值函数(Q-value Function, Q(s, a)):表示在某个状态 S 下,执举措作 A 后,长期可能得到的奖励。
目标:
智能体的目标是学习最优策略 π* ,使得它在长期内得到的奖励最大化:
https://i-blog.csdnimg.cn/direct/08fd1fd7c9ee47a384e0fcd68aa06f02.png
此中,
页: [1]
查看完整版本: 【机器学习】强化学习