李优秀 发表于 2024-9-14 16:36:00

认知架构 cognitive architecture

Assistants API:以开发人员为中心。
有状态的API:允许存储以前的消息、上传文件、访问内置工具(代码表明器)、通过函数调用控制其他工具。
认知架构应用的两个组件:(1)怎样提供上下文给应用 (2)应用怎样推理
不同级别的认知架构:
(1)单个LLM、仅得到输出
(2)一连串LLM、仅得到输出
(3)LLM作为路由、选择要使用的操纵(工具、检索器、提示)
(4)状态机、使用LLMs在步骤之间进行路由,某种程度上形成了循环,但仍旧在代码中枚举了允许的转换选项
(5)Agents、移除大量脚手架,便于完全有LLMs决定转换选项
表格形式呈现不同认知架构的对比情况:
https://i-blog.csdnimg.cn/blog_migrate/a96e79c18bca078a5d70c47c098fa3bd.png
agent scratchpad:署理草稿本。
Action & observation 动作及其对应的观察效果
https://i-blog.csdnimg.cn/blog_migrate/1c5b4852a7a319453ca64acc751cec67.png
当前题目:从各个方面来看,这种Agent的认知架构并不敷以支持严肃的应用。
现在看到的现实有用的 自主署理 Autonomous agents 在两个关键方面有所不同:
(1)现实不是Agent认知架构,而是复杂的Chains,更像是状态机。比如 GPT-Researcher 和Sweep.dev。GPT-Researcher:从执行图来看,是朝一个方向流动的,执行了很多复杂的步骤,但以明确的方式进行:首先生成子题目,然后获得子题目的链接,总结每个链接,末了将择要合并到研究陈诉中。
(2)怎样向Agent提供上下文。只管描述的是上下文感知推理应用步伐,但现实上需要pulling或者pushing来实现。意味着agent决定它需要什么上下文,然后请求它。比如sql相关的agent,可能需要知道sql数据库中存在哪些表。因此可以给它一个返回数据库中表列表的工具,而且可以在开始时调用工具。现实上,Langchain中SQL和Pandas署理将表模式作为系统消息的一部分。这种上下文的pulling和pushing操纵再次为开发人员提供了更多的控制权。
观点:认知架构和LLM一样,也是封闭的,同样了决定了最终效果,LLM渐渐转向成为操纵系统。这好像是一个五五开的分配,一半是在于核心模型的改进,另一半是在于弄清楚怎样以一种具有署理性的方式将它们最佳毗连。
Jeff Bezos: only do what makes your beer taste better 只做能让你的啤酒口感更佳的事情。这和第一性原理相通。
优化认知架构符合第一性原理吗? 作者持肯定观点。原因有三:
(1)首先:让复杂的署理真正发挥作用是非常困难的。假如你的应用依赖于署理的工作,而让署理工作又是具有挑衅性的,那么几乎可以说假如你能做好这一点,你就会比你的竞争对手拥有优势。
(2)第二个原因是,我们经常看到通用人工智能(GenAI)应用的价值与认知架构的性能精密相关。当前很多公司都在贩卖用于编程的署理、用于客户支持的署理。在这些情况下,认知架构就是产品本身。
(3)末了一个原因也是我难以信赖公司会乐意将本身锁定在由单一公司控制的认知架构中的原因。
LangChain 在构建Agent认知架构,提供很多助力。需要大量的工程工作。 LCEL可以用来灵活组合链条。 LangChain提供了凌驾 600 个集成,可以全面灵活地选择使用模型/向量存储/数据库。LangSmith,提供调试,并包括各项管理工具(回归测试、监控、数据标注、提示中心),便于线上管理整个系统。
OpenAI押注认知架构

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 认知架构 cognitive architecture