论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
Cogito v1 Preview:开源混淆推理系列模型博客速读(微 ...
Cogito v1 Preview:开源混淆推理系列模型博客速读(微调自llama和qwen) ...
慢吞云雾缓吐愁
论坛元老
|
2025-4-19 23:49:41
|
显示全部楼层
|
阅读模式
楼主
主题
1595
|
帖子
1595
|
积分
4785
Cogito v1 Preview 文章讲解
一、项目介绍
Cogito v1 Preview 是一个关于人工智能(AI)的紧张项目,旨在通过迭代改进的方法(Iterated Distillation and Amplification,简称 IDA)来实现通用超级智能(general superintelligence)。该项目由 Deep Cogito 团队开发,团队位于旧金山,并得到了一些顶级风险投资公司的支持。
二、配景知识
文章首先回首了 AlphaGo 等游戏 AI 的成功,这些 AI 在特定范畴展现了逾越人类的能力。然而,当前的大型语言模型(LLM)训练范式存在局限性,因为它们的智能水平受限于监视者(overseer)的能力。为了实现通用超级智能,必须逾越这些限制。
三、研究方法
3.1 迭代蒸馏与放大(IDA)
IDA 是一种可扩展且高效的对齐策略,用于通过迭代自我改进来实现通用超级智能。具体步骤如下:
放大(Amplification)
:使用更多的盘算资源让模型得出更好的解决方案。
蒸馏(Distillation)
:将昂贵的思考过程蒸馏回模型的参数中,以内部化放大的能力。
通过重复这两个步骤,每个周期都建立在前一个周期的进展之上,从而形成一个正反馈循环。这种循环使模型的能力越来越多地由盘算资源和放大-蒸馏过程的有效性决定,而不是原始监视者的能力。
3.2 模型训练
Cogito 团队使用 IDA 方法训练了不同大小的 LLM(3B、8B、14B、32B 和 70B),这些模型在大多数尺度基准测试中均优于同尺寸的最佳开源模型,包括 LLaMA、DeepSeek 和 Qwen 的对应模型。特别是 70B 模型还优于新发布的 Llama 4 109B MoE 模型。
四、关键结论
模型性能
:Cogito 的 LLM 在直接模式(standard LLM)和推理模式(self-reflect before answering)下均表现出色。
迭代改进
:IDA 方法比其他流行的方法(如 RLHF 和从更大模型中蒸馏)更高效、更可扩展。
模型发布计划
:团队计划在未来几周/几个月内发布更大的模型(109B、400B、671B)以及每个模型尺寸的改进检查点。
五、实验效果
文章展示了 Cogito 模型在不同基准测试中的表现,包括 3B、8B、14B、32B 和 70B 模型的性能。这些基准测试是行业尺度,展示了 IDA 的有效性。尽管这些基准测试提供了一个有用的信号,但它们并不能完全捕获实际性能。在实际应用中,基准测试分数与模型满足用户需求的能力之间的相关性较为疏松。
六、未来展望
Deep Cogito 团队正在研究补充的自我改进方法,并计划在未来几周和几个月内发布每个模型尺寸的更新检查点以及更大的模型。所有模型都将开源。
七、团队介绍
Deep Cogito 致力于构建通用超级智能,这需要科学突破,如高级推理和迭代自我改进,不仅要匹配人类水平的能力,还要发现我们尚未想象的全新能力。团队由世界顶级工程师和研究人员组成,得到了一些顶级 AI 风险投资公司的支持。
八、其他
涉及多个优秀团队和项目的支持,包括 Llama 团队、Qwen 团队、Huggingface、RunPod、Fireworks AI、Together AI、Ollama 和 Nebius。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
慢吞云雾缓吐愁
论坛元老
这个人很懒什么都没写!
楼主热帖
聊聊 C# 方法重载的底层玩法 ...
使用 Mypy 检查 30 万行 Python 代码, ...
Linux安装PHP8 新版笔记
微信公众平台测试号申请、使用HBuilder ...
Blazor WebAssembly + Grpc Web = 未来 ...
【只与自己有关】人往高处走?何为高? ...
【MAC工具】各个Xcode版本对应macOS的 ...
Apache Shiro 身份验证绕过漏洞 (CVE-2 ...
WPF 视频硬解码渲染播放(无空域问题) ...
Java多线程(7):JUC(上)
标签云
国产数据库
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
Nosql
信创/国产替代
快速回复
返回顶部
返回列表