物联网Agent Laboratory: Using LLM Agents as Research Assistants 论文简介

小秦哥 发表于 2025-1-24 12:35:28

Agent Laboratory: Using LLM Agents as Research Assistants 论文简介

加速机器学习研究的智能实验室——Agent Laboratory

1. 引言

随着人工智能技能的飞速发展，机器学习领域正从前所未有的速度推进科学发现和技能创新。然而，传统的科学研究模式往往受到时间、资源和专业知识限定，阻碍了研究者们探索新想法的本领。为相识决这一挑战，引入了一个名为“Agent Laboratory”的开源框架，它利用大型语言模型（LLMs）构建了一组自动化署理，能够完成从研究构思到最终报告的全流程工作。本文将具体介绍这个智能实验室的工作原理、评估它的性能，并探讨它在推动科研自动化的潜力。
2. 研究题目

Agent Laboratory的目标是帮助个人更高效地举行机器学习领域的研究。它通过整合多个专业化的LLM驱动的署理，实现了端到端的科研流程自动化。这些署理涵盖了文献综述、实验计划、数据处置惩罚、模型训练、结果分析和报告撰写等多个环节。这种集成式的方法旨在镌汰重复劳动，让研究人员可以将更多精力投入到创造性的研究和实验计划中。
3. 方法

文献综述阶段

在这个阶段，PhD门生署理利用arXiv API检索相关论文摘要，并将它们纳入一个经心策划的文献回顾中。该署理可以实验三个重要操作：summary（获取前20篇最相关的论文摘要）、full text（提取特定论文的全文）和 add paper（将选定的摘要或全文添加到文献回顾集中）。这个过程是迭代而非一次性完成的，由于署理人会不断查询、评估每篇文章的相关性，并根据必要调整选择，直到达到指定的相关文本数量为止。
计划制定阶段

在计划制定过程中，PhD和Postdoc署理合作对话，共同制定实现研究目标的具体行动计划。他们讨论如何实验研究计划，包括选择合适的机器 learning模型、探求合适的数据集以及确定具体的实验步骤。一旦告竣共识，Postdoc就会提交计划利用 plan命令。
数据预备阶段

在这一步，ML工程师署理负责编写用于数据预备的代码。该署理可以利用Hugging Face Datasets搜索和加载外部数据集，并通过Python命令行接口与PhD门生交互，徐徐完善数据预处置惩罚的脚本。当两边都同意最终版本后，软件开发工程师署理会提交代码利用 submit code命令。在此之前，代码会被编译以确保没有语法错误。
运行实验阶段

在此阶段，ML工程师专注于实现和实验实验计划中定义的实验。这由一个称为 mle-solver的特别模块自动完成，它生成、测试和优化机器学习代码。mle-solver开始时基于研究计划和先前的文献综述生成初始代码。然后，它会反复修改代码，每次尝试都会更换一小段现有代码，并在每次尝试后检查代码是否乐成编译且得分更高。如果代码不编译，它会尝试修复最多三次，否则继续下一个修改尝试。最后，它会维护一组最高分程序列，并定期更新其中体现不佳的程序。
结果解读阶段

在结果解读阶段，PhD和Postdoc讨论实验结果的意义，并形成对这些结果的一致明白。之后，Postdoc会将他们的看法提交给体系利用 interpretation命令，为后续的报告写作奠定底子。
报告撰写阶段

在报告撰写阶段，PhD和教授署理协作创建一份全面的学术研究报告。这项使命重要由 paper-solver工具支持，它依次生成和改进报告的各个章节，遵循标准的学术论文结构，如摘要、引言、背景、相关工作、方法、实验设置、结果和讨论。paper-solver还允许访问arXiv数据库，以便在撰写相关部分时查找额外的参考资料。生成的LaTeX文件可以直接编译成PDF格式，以便即时查看和进一步编辑。
报告精粹阶段

在报告精粹阶段，PhD决定是否必要对报告举行修订，或者是否已经满意足够高的标准。如果是后者，他们会指示 paper-solver制止工作；否则，他们会提供反馈指导署理举行必要的改进。
4. 实验与结果

质量评估

为了评估Agent Laboratory的质量，我们招募了十名博士研究生作为志愿者，让他们评审三篇随机分配的论文。参与者被要求评价实验质量、报告质量和有用性，全部指标均采用五分制评分。我们的目标是相识差别LLM后端（gpt-4o、o1-mini和o1-preview）的体现差别。以下是一些关键发现：
实验质量

o1-mini通常显现出最高的实验质量分数，平均得分为3.2/5，而gpt-4o和o1-preview的平均得分分别为2.6/5和2.9/5。
报告质量

o1-preview获得了最高的报告质量评分，平均为3.4/5，其次是o1-mini的3.2/5和gpt-4o的3.0/5。
有用性

o1-preview再次领先，获得最高的实用性评分，平均为4.4/5，紧随厥后的是o1-mini的4.0/5和gpt-4o的4.0/5。
总体而言，o1-preview被认为是最有用的，而o1-mini则在实验质量方面体现出色。gpt-4o则相对较弱，尤其是在实验质量和报告质量方面。别的，我们还注意到差别的研究主题大概影响评分，比方“词序敏感度”主题下的论文普遍获得了较高的评价。
人类评审员的评分

除了上述团体评分外，我们还邀请人类评审员按照NeurIPS集会的标准对论文举行了评分。评审员评估了六个维度：质量、意义、清楚度、妥当性、呈现度和贡献。以下是各维度的平均得分：
质量

o1-preview获得了最高的质量评分，平均为2.2/4，gpt-4o和o1-mini分别得到1.8/4和2.3/4。
意义

对于意义，全部LLM后端获得的评分相似，范围在2.2至2.5/4之间。
清楚度

gpt-4o得到了最低的清楚度评分，为2.6/4，o1-mini的评分为2.1/4，o1-preview则为3.6/4。
妥当性

o1-preview在妥当性方面获得了最高的评分，为2.2/4，gpt-4o和o1-mini分别得到1.7/4和1.8/4。
呈现度

o1-preview再次取得最佳结果，平均得分为3.3/4，gpt-4o和o1-mini分别为3.0/4和2.1/4。
贡献

在贡献方面，o1-preview同样体现最好，平均得分为3.0/4，gpt-4o和o1-mini分别为2.1/4和2.3/4。
总的来说，o1-preview在大多数种别中获得了更高的评分，表明其输出更能符合人类评审员的期望。相比之下，gpt-4o在一些种别中的体现略显逊色。值得注意的是，这些评分相对于NeurIPS接受论文的平均程度（约5.9分）仍有一定差距，提示Agent Laboratory在某些方面还有提拔空间。
与自动评审员的对比

为了更好地明白Agent Laboratory产出的论文质量，我们还利用了基于LLM的自动评审体系对其举行评分。有趣的是，自动评审体系的评分显著高于人类的评分，特别是在贡献和清楚度方面。这大概意味着自动评审体系过于乐观地估计了论文的价值，而人类的判断更加保守。因此，结合两者的评分大概会提供更为准确的质量评估。
5. 成本和时间效率分析

我们对Agent Laboratory在差别LLM后端上的运行时间和成本举行了分析，如下表所示：
阶段gpt-4oo1-minio1-preview文献综述92.9秒56.8秒23.3秒计划制定23.3秒33.1秒33.1秒数据预备10分钟1小时1小时运行实验417.8秒2082.5秒4036.2秒结果解读1分钟1分钟1分钟报告撰写572.5秒827.7秒1854.2秒报告精粹1分钟1分钟1分钟总时长1165.4秒3616.8秒6201.3秒总成本（USD）$2.33$7.51$13.10 从中我们可以看到，gpt-4o在大多数阶段的运行速度最快，从而节省了大量的计算资源。比方，在文献综述阶段，gpt-4o比o1-preview快了近5倍。而在成本方面，gpt-4o也是最具经济高效的，整个工作流的费用仅为$2.33。相比之下，o1-preview虽然在一些阶段的速度稍慢，但其在报告撰写阶段的成本较高，导致总成本上升。
6. 在MLE-Bench上的评估

为了单独评估 mle-solver 的本领，我们将它应用于MLE-Bench的一个子集，这是一个包含75个真实世界Kaggle竞赛使命的基准平台。我们比较了四种解决方案的效果：mle-solver、MLAB、OpenHands 和 AIDE。结果体现，mle-solver 在稳固性和高分率方面体现突出，统共赢得了四枚奖牌（两金一银一铜），凌驾了其他三种方法的综合体现。具体来说，mle-solver 在六个使命中有五个达到了人类专家的程度，展示了其在通用机器学习题目求解方面的强盛竞争力。
7. 结论

Agent Laboratory是一个强盛的开源框架，它利用先进的LLM技能简化了机器学习研究的过程。通过对差别LLM后端的评估，o1-preview在团体有用性方面体现最佳，而o1-mini则在实验质量上尤为突出。尽管如此，全部的LLM后端都有进一步提拔的空间，尤其是针对那些涉及复杂推理和创造性思维的使命。
Agent Laboratory不光镌汰了研究过程中的繁重工作，而且降低了成本，使得更多的研究者能够参与到前沿研究中来。展望未来，等待着看到Agent Laboratory在促进跨学科交换和加速知识传播方面发挥越来越重要的作用。
文献链接：https://arxiv.org/pdf/2501.04227

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

Agent Laboratory: Using LLM Agents as Research Assistants 论文简介