IT评测·应用市场-qidao123.com

标题: 强化学习底子_基于代价的强化学习 [打印本页]

作者: 耶耶耶耶耶    时间: 6 天前
标题: 强化学习底子_基于代价的强化学习
Action-Value Functions 动作代价函数

折扣回报(Discounted Return)

折扣回报 Ut 是从时间步 t 开始的累积夸奖,公式为:


<ul>Rt 是在时间步 t 获得的夸奖。

γ 是折扣因子(0




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4