MAD-TD: MODEL-AUGMENTED DATA STABILIZES HIGH UPDATE RATIO RL

打印 上一主题 下一主题

主题 1799|帖子 1799|积分 5397

ICLR 2025 spotlight
paper
构建能够在少量样本放学习出精良计谋的深度强化学习(RL)智能体一直是一个极具挑战性的任务。为了进步样本效率,近期的研究尝试在每获取一个新样本后执行大量的梯度更新。尽管这种高更新-数据比(UTD)计谋在实证中表现精良,但它也会导致训练过程中的不稳定性。以往方法常常依赖周期性地重置神经网络参数以应对这种不稳定性,但在很多实际应用中,重启训练流程是不可行的,并且必要对重置的时间隔断进行调参。在本文中,我们关注于在有限样本条件下实现稳定训练所面对的一个核心难点:学习得到的价值函数无法泛化到未观察到的在计谋动作上。我们通过引入由学习到的世界模子生成的少量数据,直接缓解了这一题目。我们提出的方法——用于时序差分学习的模子增强数据(Model-Augmented Data for Temporal Difference learning,简称 MAD-TD)——利用少量生成数据来稳定高 UTD 的训练过程,并在 DeepMind 控制套件中最具挑战性的任务上取得了有竞争力的性能。我们的实验进一步强调了使用优质模子生成数据的紧张性,MAD-TD 抗击价值函数高估的能力,以及其在连续学习中带来的实际稳定性提拔。
MAD-TD基于TD3算法,并对参数采用UTD=8的默认更新。对critic的采用DYNA架构下的real-data以及simulate-data以5%混合比例采样。
此中模子采用类似TD-MPC2,必要训练encoder对状态进行表征;对critic采用HL-Gauss (上一篇《Stop regressing: Training value functions via classification for scalable deep RL》);世界模子根据给定的encoder后的状态和动作 a 猜测下一状态的潜伏表现和观察到的嘉奖。模子训练丧失有三个项:编码下一状态的 SimNorm 表征的交织熵丧失、嘉奖猜测的 MSE 以及下一状态critic估计与猜测状态的critic估计之间的交织熵。


算法核心在基于模子的数据的合成,后面也对比了基于Diffusion-model的方法:

文章分析Synther失败是由于Q值发散,学习的价值函数无法实现有用泛化。总结就是合成数据的同时能学习到有用的价值函数尤其紧张。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

玛卡巴卡的卡巴卡玛

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表