qidao123.com技术社区-IT企服评测·应用市场
标题:
强化学习底子_基于代价的强化学习
[打印本页]
作者:
耶耶耶耶耶
时间:
2025-3-19 12:06
标题:
强化学习底子_基于代价的强化学习
Action-Value Functions 动作代价函数
折扣回报(Discounted Return)
折扣回报
Ut
是从时间步
t
开始的累积夸奖,公式为:
<ul>Rt 是在时间步
t
获得的夸奖。
γ
是折扣因子(0
欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/)
Powered by Discuz! X3.4