IT评测·应用市场-qidao123.com
标题:
强化学习底子_基于代价的强化学习
[打印本页]
作者:
耶耶耶耶耶
时间:
6 天前
标题:
强化学习底子_基于代价的强化学习
Action-Value Functions 动作代价函数
折扣回报(Discounted Return)
折扣回报
Ut
是从时间步
t
开始的累积夸奖,公式为:
<ul>Rt 是在时间步
t
获得的夸奖。
γ
是折扣因子(0
欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/)
Powered by Discuz! X3.4