论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
物联网
›
物联网
›
Agent Laboratory: Using LLM Agents as Research Assis ...
Agent Laboratory: Using LLM Agents as Research Assistants 论文简介
小秦哥
论坛元老
|
2025-1-24 12:35:28
|
显示全部楼层
|
阅读模式
楼主
主题
1620
|
帖子
1620
|
积分
4860
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
加速机器学习研究的智能实验室——Agent Laboratory
1. 引言
随着人工智能技能的飞速发展,机器学习领域正从前所未有的速度推进科学发现和技能创新。然而,传统的科学研究模式往往受到时间、资源和专业知识限定,阻碍了研究者们探索新想法的本领。为相识决这一挑战,引入了一个名为“Agent Laboratory”的开源框架,它利用大型语言模型(LLMs)构建了一组自动化署理,能够完成从研究构思到最终报告的全流程工作。本文将具体介绍这个智能实验室的工作原理、评估它的性能,并探讨它在推动科研自动化的潜力。
2. 研究题目
Agent Laboratory的目标是帮助个人更高效地举行机器学习领域的研究。它通过整合多个专业化的LLM驱动的署理,实现了端到端的科研流程自动化。这些署理涵盖了文献综述、实验计划、数据处置惩罚、模型训练、结果分析和报告撰写等多个环节。这种集成式的方法旨在镌汰重复劳动,让研究人员可以将更多精力投入到创造性的研究和实验计划中。
3. 方法
文献综述阶段
在这个阶段,PhD门生署理利用arXiv API检索相关论文摘要,并将它们纳入一个经心策划的文献回顾中。该署理可以实验三个重要操作:summary(获取前20篇最相关的论文摘要)、full text(提取特定论文的全文)和 add paper(将选定的摘要或全文添加到文献回顾集中)。这个过程是迭代而非一次性完成的,由于署理人会不断查询、评估每篇文章的相关性,并根据必要调整选择,直到达到指定的相关文本数量为止。
计划制定阶段
在计划制定过程中,PhD和Postdoc署理合作对话,共同制定实现研究目标的具体行动计划。他们讨论如何实验研究计划,包括选择合适的机器 learning模型、探求合适的数据集以及确定具体的实验步骤。一旦告竣共识,Postdoc就会提交计划利用 plan命令。
数据预备阶段
在这一步,ML工程师署理负责编写用于数据预备的代码。该署理可以利用Hugging Face Datasets搜索和加载外部数据集,并通过Python命令行接口与PhD门生交互,徐徐完善数据预处置惩罚的脚本。当两边都同意最终版本后,软件
开发
工程师署理会提交代码利用 submit code命令。在此之前,代码会被编译以确保没有语法错误。
运行实验阶段
在此阶段,ML工程师专注于实现和实验实验计划中定义的实验。这由一个称为 mle-solver的特别模块自动完成,它生成、测试和优化机器学习代码。mle-solver开始时基于研究计划和先前的文献综述生成初始代码。然后,它会反复修改代码,每次尝试都会更换一小段现有代码,并在每次尝试后检查代码是否乐成编译且得分更高。如果代码不编译,它会尝试修复最多三次,否则继续下一个修改尝试。最后,它会维护一组最高分程序列,并定期更新其中体现不佳的程序。
结果解读阶段
在结果解读阶段,PhD和Postdoc讨论实验结果的意义,并形成对这些结果的一致明白。之后,Postdoc会将他们的看法提交给体系利用 interpretation命令,为后续的报告写作奠定底子。
报告撰写阶段
在报告撰写阶段,PhD和教授署理协作创建一份全面的学术研究报告。这项使命重要由 paper-solver工具支持,它依次生成和改进报告的各个章节,遵循标准的学术论文结构,如摘要、引言、背景、相关工作、方法、实验设置、结果和讨论。paper-solver还允许访问arXiv数据库,以便在撰写相关部分时查找额外的参考资料。生成的LaTeX文件可以直接编译成PDF格式,以便即时查看和进一步编辑。
报告精粹阶段
在报告精粹阶段,PhD决定是否必要对报告举行修订,或者是否已经满意足够高的标准。如果是后者,他们会指示 paper-solver制止工作;否则,他们会提供反馈指导署理举行必要的改进。
4. 实验与结果
质量评估
为了评估Agent Laboratory的质量,我们招募了十名博士研究生作为志愿者,让他们评审三篇随机分配的论文。参与者被要求评价实验质量、报告质量和有用性,全部指标均采用五分制评分。我们的目标是相识差别LLM后端(gpt-4o、o1-mini和o1-preview)的体现差别。以下是一些关键发现:
实验质量
o1-mini通常显现出最高的实验质量分数,平均得分为3.2/5,而gpt-4o和o1-preview的平均得分分别为2.6/5和2.9/5。
报告质量
o1-preview获得了最高的报告质量评分,平均为3.4/5,其次是o1-mini的3.2/5和gpt-4o的3.0/5。
有用性
o1-preview再次领先,获得最高的实用性评分,平均为4.4/5,紧随厥后的是o1-mini的4.0/5和gpt-4o的4.0/5。
总体而言,o1-preview被认为是最有用的,而o1-mini则在实验质量方面体现出色。gpt-4o则相对较弱,尤其是在实验质量和报告质量方面。别的,我们还注意到差别的研究主题大概影响评分,比方“词序敏感度”主题下的论文普遍获得了较高的评价。
人类评审员的评分
除了上述团体评分外,我们还邀请人类评审员按照NeurIPS集会的标准对论文举行了评分。评审员评估了六个维度:质量、意义、清楚度、妥当性、呈现度和贡献。以下是各维度的平均得分:
质量
o1-preview获得了最高的质量评分,平均为2.2/4,gpt-4o和o1-mini分别得到1.8/4和2.3/4。
意义
对于意义,全部LLM后端获得的评分相似,范围在2.2至2.5/4之间。
清楚度
gpt-4o得到了最低的清楚度评分,为2.6/4,o1-mini的评分为2.1/4,o1-preview则为3.6/4。
妥当性
o1-preview在妥当性方面获得了最高的评分,为2.2/4,gpt-4o和o1-mini分别得到1.7/4和1.8/4。
呈现度
o1-preview再次取得最佳结果,平均得分为3.3/4,gpt-4o和o1-mini分别为3.0/4和2.1/4。
贡献
在贡献方面,o1-preview同样体现最好,平均得分为3.0/4,gpt-4o和o1-mini分别为2.1/4和2.3/4。
总的来说,o1-preview在大多数种别中获得了更高的评分,表明其输出更能符合人类评审员的期望。相比之下,gpt-4o在一些种别中的体现略显逊色。值得注意的是,这些评分相对于NeurIPS接受论文的平均程度(约5.9分)仍有一定差距,提示Agent Laboratory在某些方面还有提拔空间。
与自动评审员的对比
为了更好地明白Agent Laboratory产出的论文质量,我们还利用了基于LLM的自动评审体系对其举行评分。有趣的是,自动评审体系的评分显著高于人类的评分,特别是在贡献和清楚度方面。这大概意味着自动评审体系过于乐观地估计了论文的价值,而人类的判断更加保守。因此,结合两者的评分大概会提供更为准确的质量评估。
5. 成本和时间效率分析
我们对Agent Laboratory在差别LLM后端上的运行时间和成本举行了分析,如下表所示:
阶段gpt-4oo1-minio1-preview文献综述92.9秒56.8秒23.3秒计划制定23.3秒33.1秒33.1秒数据预备10分钟1小时1小时运行实验417.8秒2082.5秒4036.2秒结果解读1分钟1分钟1分钟报告撰写572.5秒827.7秒1854.2秒报告精粹1分钟1分钟1分钟总时长1165.4秒3616.8秒6201.3秒总成本(USD)$2.33$7.51$13.10 从中我们可以看到,gpt-4o在大多数阶段的运行速度最快,从而节省了大量的计算资源。比方,在文献综述阶段,gpt-4o比o1-preview快了近5倍。而在成本方面,gpt-4o也是最具经济高效的,整个工作流的费用仅为$2.33。相比之下,o1-preview虽然在一些阶段的速度稍慢,但其在报告撰写阶段的成本较高,导致总成本上升。
6. 在MLE-Bench上的评估
为了单独评估 mle-solver 的本领,我们将它应用于MLE-Bench的一个子集,这是一个包含75个真实世界Kaggle竞赛使命的基准平台。我们比较了四种解决方案的效果:mle-solver、MLAB、OpenHands 和 AIDE。结果体现,mle-solver 在稳固性和高分率方面体现突出,统共赢得了四枚奖牌(两金一银一铜),凌驾了其他三种方法的综合体现。具体来说,mle-solver 在六个使命中有五个达到了人类专家的程度,展示了其在通用机器学习题目求解方面的强盛竞争力。
7. 结论
Agent Laboratory是一个强盛的开源框架,它利用先进的LLM技能简化了机器学习研究的过程。通过对差别LLM后端的评估,o1-preview在团体有用性方面体现最佳,而o1-mini则在实验质量上尤为突出。尽管如此,全部的LLM后端都有进一步提拔的空间,尤其是针对那些涉及复杂推理和创造性思维的使命。
Agent Laboratory不光镌汰了研究过程中的繁重工作,而且降低了成本,使得更多的研究者能够参与到前沿研究中来。展望未来,等待着看到Agent Laboratory在促进跨学科交换和加速知识传播方面发挥越来越重要的作用。
文献链接:https://arxiv.org/pdf/2501.04227
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
小秦哥
论坛元老
这个人很懒什么都没写!
楼主热帖
Python教程(5)——Python的第一个程序 ...
Kubernetes(k8s)安装以及搭建k8s-Das ...
〖Python接口自动化测试实战篇⑤〗- 接 ...
java递归简介说明
网易云信实时视频直播在TCP数据传输层 ...
liunx速记
海量监控数据处理如何做,看华为云SRE ...
从 Stream 到 Kotlin 再到 SPL
开发一个二方包,优雅地为系统接入ELK ...
【问题】为什么 System.Timers.Timer ...
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
前端开发
Postrge-SQL技术社区
快速回复
返回顶部
返回列表