qidao123.com技术社区-IT企服评测·应用市场

标题: 强化学习底子_基于代价的强化学习 [打印本页]

作者: 耶耶耶耶耶 时间: 2025-3-19 12:06
标题: 强化学习底子_基于代价的强化学习
Action-Value Functions 动作代价函数

折扣回报（Discounted Return）

折扣回报 Ut 是从时间步 t 开始的累积夸奖，公式为：

<ul>Rt 是在时间步 t 获得的夸奖。

γ 是折扣因子（0

欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/)