免费入驻
产品入驻解决方案入驻公司入驻案例入驻
登录 · 注册
自动登录找回密码

密码立即注册

qidao123.com技术社区-IT企服评测·应用市场»论坛 › 软件与程序人生 › 后端开发 › Java › 强化学习底子_基于代价的强化学习

强化学习底子_基于代价的强化学习

耶耶耶耶耶论坛元老 | 2025-3-19 12:06:07 | 显示全部楼层 | 阅读模式

上一主题

下一主题

楼主

主题 1800|帖子 1800|积分 5400

Action-Value Functions 动作代价函数

折扣回报（Discounted Return）

折扣回报 Ut 是从时间步 t 开始的累积夸奖，公式为：

<ul>Rt 是在时间步 t 获得的夸奖。

γ 是折扣因子（0

本帖子中包含更多资源

您需要登录才可以下载或查看，没有账号？立即注册

x

回复

使用道具举报

0 个回复

倒序浏览

快速回复

微信订阅号

微信服务号

微信客服

小程序

H5

关于我们商务合作网站地图

快速回复 返回顶部 返回列表