梦见你的名字 发表于 2025-1-9 00:43:39

VLMs之Agent之CogAgent:CogAgent的简介、安装和使用方法、案例应用之详细

VLMs之Agent之CogAgent:CogAgent的简介、安装和使用方法、案例应用之详细攻略
   导读:在2024年末,智谱于11月29日正式提出了GLM-OS概念,并推出了两款Agent产品——AutoGLM和GLM-PC。为了促进大模型Agent生态的发展,智谱决定将GLM-PC的根本模型,即CogAgent-9B,进行开源,以便社区进一步开发和利用。
CogAgent-9B-20241220是基于GLM-4V-9B练习得到的专用Agent使命模型,它能够仅通过屏幕截图输入(无需HTML等文本表征),结适用户指定的使命和历史操作,猜测下一步的GUI操作。这一模型由于屏幕截图和GUI操作的广泛实用性,可广泛应用于个人电脑、手机、车机装备等基于GUI交互的场景。
相较于2023年12月开源的第一版CogAgent模型,CogAgent-9B-20241220在GUI感知、推理猜测准确性、动作空间完善性、使命普适性和泛化性等方面都有显著提升,而且支持中英文双语的屏幕截图和语言交互。



目录
相关文章
VLMs之Agent之CogAgent:《CogAgent: A Visual Language Model for GUI Agents》翻译与解读
VLMs之Agent之CogAgent:CogAgent-9b的简介、安装和使用方法、案例应用之详细攻略
CogAgent-9b的简介
0、更新
(1)、2023年12月,发布CogAgent
(2)、2024年12月,发布CogAgent-9b-20241220
1、CogAgent-9b-20241220 的特点
2、CogAgent-9b-20241220 的模型性能
2.1、基准测试
2.2、CogAgent 的局限性
3、CogAgent的模型能力
CogAgent-9b的安装和使用方法
1、情况配置
(1)、模型资源
2、模型运行
T1、本地推理 (命令行交互)
T2、在线Web演示 (一连图像上传交互式推理)
3、输入输出格式
(1)、用户输入部门
(2)、模型返回部门
4、使用示例
(1)、标记全部邮件为已读
5、微调模型
CogAgent-9b的案例应用
1、根本案例
(1)、主动发送圣诞祝福
(2)、辅助发送邮件





相关文章

VLMs之Agent之CogAgent:《CogAgent: A Visual Language Model for GUI Agents》翻译与解读

VLMs之Agent之CogAgent:《CogAgent: A Visual Language Model for GUI Agents》翻译与解读-CSDN博客

VLMs之Agent之CogAgent:CogAgent-9b的简介、安装和使用方法、案例应用之详细攻略

VLMs之Agent之CogAgent:CogAgent的简介、安装和使用方法、案例应用之详细攻略-CSDN博客


CogAgent-9b的简介

CogAgent是一个开源的端到端基于视觉语言模型(VLM)的GUI智能体。它是一个改进自CogVLM的视觉语言模型,拥有110亿视觉参数和70亿语言参数,支持1120x1120分辨率的图像明白,并在GUI图像智能体能力上进行了进一步加强。
CogAgent-9b-20241220 模型基于 GLM-4V-9B 双语开源 VLM 基座模型构建。通过数据优化、多阶段练习和策略改进,它在 GUI 感知、推理猜测准确性、动作空间完备性、使命普适性和泛化性方面都有显著提升,支持中英文双语的屏幕截图和语言交互。 该模型已应用于智谱 AI 的 GLM-PC 产品。 相较于之前的 CogAgent 版本,它在 GUI 感知、推理准确性、动作空间完备性、使命普适性和泛化性方面都有大幅提升。
GitHub地址:GitHub - THUDM/CogAgent: An open-sourced end-to-end VLM-based GUI Agent
技能报告:GLM-PC


0、更新

>> 2024.12 我们开源了最新版 CogAgent-9B-20241220 模型。相较于上一版本CogAgent,CogAgent-9B-20241220 在GUI感知、推理猜测准确性、动作空间完善性、使命的普适和泛化性上得到了大幅提升,能够接受中英文双语的屏幕截图和语言交互。
>> 2024.6 CogAgent 被 CVPR2024 吸收,并被评为大会 Highlight(前3%) 。
>> 2023.12 我们开源了首个GUI Agent:CogAgent(该版本堆栈位于这里),并发布了对应论文 �� CogAgent论文。


(1)、2023年12月,发布CogAgent

https://i-blog.csdnimg.cn/direct/a1a731b12fd644fca9769369810ce8b8.png
2023年12月,我们发布了CogAgent,第一个基于视觉语言模型(Visual Language Model, VLM)的开源 GUI agent 模型。 CogAgent仅依赖于屏幕截图作为输入(无需HTML等文本表征),可以根据用户指定的恣意使命,结合过往的操作历史,猜测下一步的GUI操作。由于屏幕截图和GUI操作的普适性,CogAgent可以被利用于任何基于GUI交互的场景,比方个人电脑、手机、车机装备等。CogAgent在 Mind2Web(电脑agent)、AITW(手机agent)取得了当时最佳的性能,也显现出了相比于天然语言模型 LLM agent 的巨大优势。在发布后一年的时间内,在学界和大模型社区中,越来越多的研究者和开发者们开始关注VLM-based GUI Agent。 截至目前(2024.12.20),CogAgent 累计逾100万下载量,被凌驾200个工作引用。 在一年后的本日,Claude 3.5 (Computer Use)、Gemini 2.0 - Project Mariner 等商业化模型也开始探索视觉 GUI agent,以发布或内测 API 的形式供公众使用。


(2)、2024年12月,发布CogAgent-9b-20241220

模型基座和布局升级
>> 使用GLM-4V-9B视觉语言模型作为基座模型,提升图像明白性能。

视觉处置惩罚模块优化
>> 实现高效统一的视觉处置惩罚模块,支持1120*1120高分辨率图像输入。
>> 采用带参数的下采样方法,提高模型效率,支持恣意比例或大小的图像输入。
>> 建议用户在现实使用中得当增加图标和文字的相对大小。
数据集丰富与完善
>> 整合多种数据集,包括无监督数据和GUI指令微调数据集。
>> 利用CogAgent自我天生数据,扩充数据集。
预练习策略优化
>> 提出GUI Grounding预练习,构造GUI的REG和REC使命。
>> 使用40万网页数据构造1.4亿练习样本,扩充桌面应用和移动应用的layout数据。
后练习策略改进
>> 采用GUI instruction tuning和GUI agent SFT两个阶段的后练习策略。
>> 使用开源数据和私有网络数据,提升模型对GUI的明白和推理能力。
模型推理及思维链优化
>> 将思维链分解为Status、Plan、Action、Operation,并使用随机采样的方式混合练习数据。
动作空间完善
>> 明确根本动作空间,新增LLM、QUOTE_TEXT、LAUNCH等高级动作,加强模型工具使用和交互能力。



1、CogAgent-9b-20241220 的特点

>> 端到端 VLM-based GUI 智能体:CogAgent不是简单的视觉问答模型,而是一个完备的GUI智能体,能够明白用户指令,执行一系列操作,并根据GUI反馈调整策略。它将视觉明白和语言明白无缝集成,实现了端到端的GUI交互。
>> 基于强大基座模型:CogAgent-9b-20241220 基于 GLM-4V-9B 双语开源 VLM 基座模型,继续了其强大的语言明白和视觉明白能力。
>> 显著的性能提升:相较于之前的版本,CogAgent-9b-20241220 在 GUI 感知、推理准确性、动作空间完备性、使命普适性和泛化性方面都有显著提升。
>> 双语支持:支持中英文双语交互,能够明白和天生中英文指令和反馈,拓展了其应用范围。
>> 支持多种输出格式:提供多种输出格式选项,方便用户根据需求选择合适的输出内容,比方:action_operation, status_plan_action_operation, status_action_op_sensitive 等。 用户可以根据现实需求选择差别的格式,以获取更全面的信息或更简便的结果。
>> 严格的输入输出规范:为了包管模型的性能和稳固性,定义了严格的输入输出格式,用户需要按照规范构建输入提示,并剖析模型的输出结果。 这固然增加了使用门槛,但也包管了模型的可靠性和可控性。
>> 支持一连执行历史:固然不支持一连对话,但支持一连执行历史,允许用户在同一使命中多次调用模型,并将之前的操作结果作为上下文信息,引导后续操作。 这对于完成复杂的多步 GUI 操作至关紧张。
>> 开源开放:代码和模型权重均已开源,方便研究者和开发者进行学习、改进和应用。

2、CogAgent-9b-20241220 的模型性能

CogAgent-9b-20241220 在多个方面取得了 SOTA 或领先的结果,但没有提供具体的数值结果。 需要参考其论文或其他技能报告获取更详细的性能数据。 性能优势体如今:
>> GUI 定位 (Screenspot):在 GUI 元素定位方面体现精彩。
>> 单步操作 (OmniAct):在执行单步 GUI 操作方面取得了领先的结果。
>> 多步操作 (OSWorld):在执行多步 GUI 操作方面也体现优异,仅在某些特定场景下略逊于一些专门针对计算机使用的商业模型。
>> 中文 step-wise 内部评测榜单 (CogAgentBench-basic-cn):在内部的中文分步操作基准测试中取得了领先地位。

2.1、基准测试

CogAgent-9b-20241220 模型在多平台、多类别的GUI Agent及GUI Grounding Benchmarks上取得了当前最优的结果。在 CogAgent-9b-20241220 技能博客 中,我们对比了基于API的商业模型(GPT-4o-20240806、Claude-3.5-Sonnet)、商业API + GUI Grounding模型(GPT-4o + UGround、GPT-4o + OS-ATLAS)、开源GUI Agent模型(Qwen2-VL、ShowUI、SeeClick)。结果表明:
>> CogAgent在GUI定位(Screenspot)、单步操作(OmniAct)、中文step-wise内部评测榜单(CogAgentBench-basic-cn)、多步操作(OSWorld)都取得了领先的结果;
>> 仅在OSworld上略逊于针对Computer Use特化的Claude-3.5-Sonnet和结合外接 GUI Grounding Model 的GPT-4o。

2.2、CogAgent 的局限性

>> 对特定 GUI 的依赖:固然具有跨使命泛化能力,但其性能大概仍然会受到特定 GUI 计划的影响。 差别的 GUI 计划大概需要差别的策略和方法。
>> 输出坐标的精度:论文中提到输出坐标大概不够精确,这需要进一步改进。
>> 多图像处置惩罚能力:目前大概还不支持处置惩罚多张图像,这限制了其在某些复杂场景中的应用。
>> 对练习数据的依赖:模型的性能很大水平上依赖于其练习数据,练习数据的质量和数量直接影响模型的效果。


3、CogAgent的模型能力

>> GUI 感知:能够准确识别和定位GUI界面中的各种元素,比方按钮、文本框、图标、图片等,并明白其含义和功能。
>> 推理能力:能够根据用户指令和GUI界面信息进行推理,订定操作计划,并选择合适的动作序列来完成使命。
>> 动作执行:能够执行各种GUI操作,比方点击、输入文本、滚动页面等,并根据操作结果更新模型的状态。
>> 动作空间完备性:拥有丰富的动作空间,能够执行各种类型的GUI操作,覆盖了大多数常见的GUI交互方式。
>> 跨使命泛化能力:在多个GUI数据集上取得了开始进的性能,显现了其强大的跨使命泛化能力,能够顺应差别的GUI界面和使命场景。
>> 对齐能力:通过多使命微调,模型能够更好地与自由形式的人类指令对齐,明白用户意图并天生更准确的操作指令。
>> 错误处置惩罚:固然模型并非完善无缺,但其输出结果包含状态信息,方便用户明白模型的当前状态和操作过程,从而更好地进行错误处置惩罚。



CogAgent-9b的安装和使用方法


1、情况配置

需要Python 3.10.16或更高版本,并安装依赖项:pip install -r requirements.txt
>> 推理要求:至少需要29GB的VRAM进行BF16精度推理;不建议使用INT4精度,其VRAM使用约为8GB;INT8精度推理VRAM使用约为15GB。
>> 推理代码:在inference/cli_demo.py文件中,INT4和INT8推理的代码行已被注释,可根据需要取消注释使用。
>> 硬件支持:上述GPU指的是A100或H100,其他装备需根据现实情况计算所需的GPU/CPU内存。
>> 监督式微调(SFT):冻结视觉编码器,批处置惩罚大小为1,使用8个A100 GPU进行练习,总输入令牌数(包括图像的1600个令牌)为2048个令牌,SFT微调至少需要每个GPU 60GB内存。
>> LoRA微调:不冻结视觉编码器,批处置惩罚大小为1,使用1个A100 GPU,总输入令牌数为2048个,LoRA微调至少需要单个GPU 70GB内存,且不能分割。
>> Ascend装备:未测试用于SFT微调,已在Atlas800练习服务器集群上测试,需根据Ascend装备下载链接中的加载机制修改推理代码。
>> vLLM框架:目前不支持使用vLLM框架进行推理,将尽快提交PR以启用。
>> 支持的平台:Windows, macOS, Android。
>> 在线演示的限制:在线演示不支持控制计算机,只能检察模型的推理结果。建议本地部署模型。

(1)、模型资源

Model模型下载地址技能文档在线体验cogagent-9b-20241220
页: [1]
查看完整版本: VLMs之Agent之CogAgent:CogAgent的简介、安装和使用方法、案例应用之详细