大模型智能体与强化学习

打印 上一主题 下一主题

主题 878|帖子 878|积分 2634


强化学习在控制和决策任务展现了强大的本领,然而其存在样本利用率低、夸奖函数计划难、泛化性差的问题,这些问题限制了强化学习在现实场景中的大规模应用。近年来,随着参数规模的扩大和练习数据量的增长,大语言模型(LLM,简称大模型)展现出了杰出的语义明白、推理和规划本领。将大模型与强化学习相结合,以克服强化学习所固有的挑衅,正成为一个值得深入研究的前沿课题。
概念和研究配景
强化学习是一种通过与情况交互来学习最优策略的机器学习方法,广泛应用于机器人控制、游戏策略、主动驾驶等范畴。然而,强化学习在实际应用中面临一些显著挑衅。首先,样本利用率低是一个主要问题,强化学习算法通常需要大量的交互数据才能学到有效的策略,这在实际应用中大概导致高昂的时间和盘算本钱。其次,夸奖函数的计划难度大,不同任务需要特定的夸奖函数来引导学习过程,而计划出有效的夸奖函数往往需要丰富的范畴知识和大量的实行调试。末了,强化学习模型的泛化性差,在练习情况之外的实际场景中,模型的表现往往不尽如人意。
近年来,随着盘算本领的提升和大规模数据的积累,大模型得到了迅速发展。大模型通过海量的练习数据和复杂的参数结构,展现出了强大的语义明白、推理和规划本领。这些模型不但能处理自然语言处理任务,还能通过语言形貌实现复杂任务的规划和实行。因此,将大模型与强化学习相结合,成为一种新的研究方向,希望通过大模型的优势来克服强化学习中的固有问题。
相关研究梳理
当前大模型智能体与强化学习结合的工作主要可以分为三部门。首先,大模型基于语义明白本领和预练习预料中的世界知识,增强强化学习的状态表征。其次,大模型基于其预练习知识和上下文学习本领,计划强化学习的夸奖函数。末了,大模型基于其推理规划本领,资助强化学习举行决策与规划

图1.大模型智能体与强化学习结合的分类框架
相关文献综述参考:
[1] Cao Y, et al. Survey on large language model-enhanced reinforcement learning: Concept, taxonomy, and methods[J]. Preprint 2024.
[2] Pternea M, et al. The RL/LLM Taxonomy Tree: Reviewing Synergies Between Reinforcement Learning and Large Language Models[J]. Preprint 2024.
大模型增强状态表征
大模型增强状态表征的工作可以分为两种,一种是利用大模型的语言指令解析[3,4,5]本领,传统强化学习难以从状态中表征出任务相关的信息,大模型将任务情况信息转化为结构化的表现,提升强化学习智能体对于任务情况的明白;另一种是利用大模型强大的建模本领和世界知识,把大模型作为世界模型模拟器[6,7],预测下一个状态和夸奖,从而提升强化学习的样本效率。
利用大模型语言指令解析本领的研究中,以工作[5]为例,其利用大模型的先验知识和推理本领,以任务场景形貌、状态变量说明、智能体角色属性和self-refine的反馈作为大模型输入,大模型生成与任务场景和物理机制相符的状态表征代码,强化学习算法基于大模型提供的状态表征代码举行状态处理,并将练习效果反馈给大模型,大模型结合self-refine机制根据反馈调整状态表征代码的生成。

图2.大模型基于语言指令生成状态表征代码 [3]
另外,一些研究把大模型作为世界模型模拟器,比方工作[6]学习多模态世界模型来预测情况中未来的文本和图像表现,强化学习智能体根据想象的未来世界表现来举行决策,从而大幅提升样本利用效率。

图3.大模型作为世界模型模拟器 [6]
[3] Pang J C, et al. Natural Language-conditioned Reinforcement Learning with Inside-out Task Language Development and Translation[J]. Preprint 2023.
[4] Basavatia S, et al. STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models[J]. arXiv Preprint 2024.
[5] Wang B, et al. LLM-Empowered State Representation for Reinforcement Learning[C]. ICML 2024.
[6] Jessy Lin, et al. Learning to Model the World with Language. ICML 2024.
[7] Seo, Younggyo, et al. “Masked world models for visual control.” CoRL, 2023.
大模型计划夸奖函数
夸奖函数对引导强化学习智能体的练习非常告急,但是,高性能的夸奖函数计划是非常困难的,需要非常大量的专家知识和人力本钱。大模型可以或许利用其预练习的知识和上下文学习本领,高效地计划RL的夸奖函数。
详细而言,有多少现有研究[8,9]将大模型作为黑盒情势的夸奖函数模型,也就是夸奖函数的详细情势是未知的。以研究[8]为例,大模型根据用户的目标需求,对强化学习智能体的轨迹打分。详细而言,大模型的输入提示词包括任务形貌、用户指定目标、强化学习智能体历史轨迹,接着大模型根据其先验知识和推理本领,判断智能体轨迹是否满足用户指定目标并打分;然后强化学习将大模型的打分作为夸奖函数举行练习,练习效果反馈给大模型,大模型再调整其生成的夸奖函数。

图4.大语言模型作为黑盒夸奖模型 [8]
除此以外,还有多少研究[10,11]将大模型作为白盒夸奖模型,利用大模型对物理机制的明白和写代码的本领,让大模型明白写出夸奖函数的定义代码,更透明地供人类阅读和明白。

图4.大模型通过写代码计划夸奖函数 [10]
总之,利用大模型预练习的知识和上下文学习本领,能实现主动化且比专家更有效的夸奖函数计划。
[8] Kwon M, et al. Reward design with language models[J]. ICLR 2023.
[9] Wu Y, et al. Read and reap the rewards: Learning to play atari with the help of instruction manuals[J]. Neurips 2024.
[10] Xie T, et al. Text2Reward: Reward Shaping with Language Models for Reinforcement Learning[C]. ICLR 2023.
[11] Song J, et al. Self-refined large language model as automated reward function designer for deep reinforcement learning in robotics[J]. Preprint 2023.
大模型赋能决策与规划
利用大模型的预练习世界知识以及涌现的推理规划本领,可以资助强化学习进办法作决策,一方面是直接决策,大模型可以直接作为策略生成器,直接生成强化学习的动作;另一方面是间接决策,大模型可以作为专家,生成候选动作,引导强化学习的动作选择。
直接决策方面,一些研究[12,13,14]将大模型作为策略生成器,通过微调预练习大模型,举行离线强化的练习,利用大模型的预练习知识,提升离线强化学习的泛化性。以工作[13]为例,将大模型作为预练习模型,从而利用大模型中的预练习世界知识来弥补离线强化学习样本量不敷的缺点;将离线轨迹策略拼接成序列,利用LoRA(低秩顺应)来高效地微调大模型;并在练习离线强化学习的同时,举行语言的预练习辅助任务,从而制止过拟合。

图5.大模型作为策略生成器 [13]
间接决策方面,相关研究[15,16,17]利用大模型的推理和规划本领,生成后续动作大概分解任务指令,减小强化学习的动作探索空间。以研究[16]为例,大模型具有丰富知识和高层次的技能,但是却难以实现低层次的与真实世界的交互,而强化学习擅长的恰恰和大模型相反,因此该工作将强化学习的低层次技能与大模型的高层次经验结合。大模型以任务指令作为输入,输出完成任务相关的技能以及相应的概率;强化学习智能体则在情况中实行这些技能动作,并利用价值函数来学习不同技能对于成功完成任务的概率。

图6.大模型作为专家引导候选动作 [16]
[12] Li S, et al. Pre-trained language models for interactive decision-making[J]. Neurips 2022.
[13] Shi R, et al. Unleashing the power of pre-trained language models for offline reinforcement learning[J]. Preprint 2023.
[14] Brohan A, et al. Rt-2: Vision-language-action models transfer web knowledge to robotic control[J]. Preprint 2023.
[15] Yao S, et al. Keep calm and explore: Language models for action generation in text-based games[J]. Preprint 2020.
[16] Ahn M, et al. Do as i can, not as i say: Grounding language in robotic affordances[J]. Preprint 2022.
[17] Dasgupta I, et al. Collaborating with language models for embodied reasoning[J]. Neurips workshop 2023.
未来展望
虽然近期的研究展现出大模型智能体能更换与增强强化学习的各个组件,但仍然有很多的研究契机和研究方向等候挖掘与实践。
首先,当前大模型增强强化学习的相关研究主要针对游戏场景和机器人控制场景,这些场景能较为容易的提取语言形貌供大模型明白。但是,对于城市中的复杂调理场景,比方物流调理、网约车调理等,怎样提取场景的语言信息让大模型明白,从而发挥大模型的推理和规划本领,资助强化学习在这些场景举行任务拆分大概动作规划,是一个具有挑衅性的研究方向。
其次,大模型计划夸奖函数的工作主要针对单智能体强化学习,而多智能体合作的场景中,多个智能体只能得到一个共同的夸奖函数,这此中存在信誉分配问题,难以区分智能体各自的贡献。能否利用大模型计划夸奖函数的思绪,为每个智能体计划各自的夸奖函数,从而区分各个智能体的贡献,也是一个值得研究的方向。
另外,当前大模型作为世界模型的工作,也主要是基于游戏和机器人场景,对于更复杂的城市决策任务,怎样纳入特定的范畴知识,构造更复杂任务的世界模型,也是一个具有挑衅性的方向。
末了,目前大模型智能体与强化学习结合的工作,主要是利用大模型智能体辅助强化学习决策,而怎样利用强化学习来改进大模型智能体,是一个告急的未来研究方向。
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有效
对于0底子小白入门:
   如果你是零底子小白,想快速入门大模型是可以思量的。
  一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习操持和方向。
  包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零底子系统性的学好大模型!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

美丽的神话

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表