qidao123.com技术社区-IT企服评测·应用市场

标题: 强化学习底子_基于代价的强化学习 [打印本页]

作者: 耶耶耶耶耶    时间: 2025-3-19 12:06
标题: 强化学习底子_基于代价的强化学习
Action-Value Functions 动作代价函数

折扣回报(Discounted Return)

折扣回报 Ut 是从时间步 t 开始的累积夸奖,公式为:


<ul>Rt 是在时间步 t 获得的夸奖。

γ 是折扣因子(0




欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/) Powered by Discuz! X3.4