强化学习底子_基于代价的强化学习

打印 上一主题 下一主题

主题 915|帖子 915|积分 2745

Action-Value Functions 动作代价函数

折扣回报(Discounted Return)

折扣回报 Ut 是从时间步 t 开始的累积夸奖,公式为:


<ul>Rt 是在时间步 t 获得的夸奖。

γ 是折扣因子(0

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

耶耶耶耶耶

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表