论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
数据库
›
分布式数据库
›
OpenAI o3 “震撼” 发布后回归技术本身的审视与进一步 ...
OpenAI o3 “震撼” 发布后回归技术本身的审视与进一步思考 ...
魏晓东
金牌会员
|
2024-12-23 14:29:33
|
显示全部楼层
|
阅读模式
楼主
主题
825
|
帖子
825
|
积分
2475
OpenAI o3就这么 “duang”的一下来了,干系的各种评测和陈诉资讯一大堆,所展露的“震撼”或简朴粗暴的某种工业或工程学“组合堆叠”就不多说了,在这里还是紧张还是想跟各人聊聊技术本身。
今天破晓看到一篇媒体报道里有一种通俗工学上的类比挺有意思,给各人截取一下:
“大模型本质上是向量程序的存储库。当给出提示词时,LLM会提取提示词对应的程序,并在当前输入上「执行」。也就是说,它们是通过被动打仗人类生成内容来存储和操纵化数百万个有用的小程序的一种方式。
这种「记忆、提取、应用」的模式可以在适当的训练数据下,实现对恣意任务的恣意技能水平,但它无法适应新任务或即时掌握新技能。而要适应新任务,需要两样东西。
第一,需要知识:一组可重用的函数或程序供调用。LLM在这方面已经绰绰有余。
第二,需要在面临新任务时将这些函数重新组合成一个全新的程序的本领:一个可以或许建模当前任务的程序,也就是程序合成。
而LLM长期以来缺乏这一特性,o系列模型却带了新的突破。o3模型的核心创新在于,实现了token空间内自研语言程序搜索和执行。它在测试时会搜索可能的CoT空间,探求描述办理任务所需的步骤,由评估模型引导搜索过程。这种方式可能与AlphaZero的MCTS某种水平上类似。
因此,o3通过生成并执行自己的程序克服了这一问题,此中程序本身(即CoT)成为知识(这里我认为用“泛化”更贴切)重组的产物。
只管这并不是测试时,知识重组的唯一可行方法(也可以进行测试时训练,或在潜在空间中搜索),但根据这些最新的ARC-AGI数据,它代表了当前的开始进水平。实质上,o3本质上是一种深度学习引导的程序搜索形式。”
上述这种类比我以为很直观的阐明了当前o系模型与传统llm在训练时与推理测试时的这种范式的转换,认识我的伙伴应该还记得我今年年初写的那篇关于“融合RL与LLM”(关键词)的篇长文吧,这也不得不也让我再次回忆起hugginface某位prof在讲test time compute scaling时提到的4种潜在的rl方法中最有潜力的一种:SoS~Stream of Search。
关于SoS各人可自行查看原论文,这里我紧张跟各人分享一下我的想法和抛出一些引发继续思考的问题:
SoS框架本身模拟或束缚于一个内部的形式化“天下模型”,而这可能来自于特定的领域任务下的数据盛行分布,而在这种特定领域下的任务空间我们发现了其自身所包罗的精确的形式化验证本身,那么在通用领域下是否存在这种通用、可精确形式化验证的可能吗?
看似混乱的甚至错误的搜索战略或路径轨迹所出现的数据分布也许在某种更开放的探索任务下,对于神经网络模型在反向梯度传播时对隐式参数化的知识或泛化的扰动,要优于所谓的最优战略的数据集因此,直觉上SoS+Star可进一步在步骤级战略上优化迭代探索与使用。
这种领域内形式化框架或相对一个封闭系统的内部所出现的形式化小天下模型,也许对于推理模式的通用性是某种限制,在某种内部的形式化天下模型束缚与界说下所采用RL中的步骤解空间探索、嘉奖反馈、战略优化迭代,势必绕不已往更加广泛和通用的领域的泛化性,我想将来要想实现真正的通用泛化本领必然需将形式化的尺度进一步放大,同时亦需考虑最闭幕果的verify问题。也许将天然语言作为终极的形式化底层框架并通过强RM去实现这一可能,但嘉奖机制和形式其实在将来也有很大的考究和潜力空间可探的,比如Day2的RFT。
一种形式化框架与一种符号化表征(如语言)他们之间的关系是怎样的?而与此中的推理与泛化又存在着怎样的本质接洽?天然语言是否可以通过某种碎片化的形式化过程来实现完备的verify?
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
魏晓东
金牌会员
这个人很懒什么都没写!
楼主热帖
基础常用dos命令
Unity技术手册 - Shader实现灵魂状态 ...
云原生之旅 - 14)遵循 GitOps 实践的 ...
Vulnhub靶机-Al-Web-1
火山引擎 DataLeap 计算治理自动化解决 ...
.NET主流的几款重量级 ORM框架 ...
vuluhub_jangow-01-1.0.1
2022年总结-博客篇
Android studio连接MySQL并完成简单的 ...
数仓实践丨常量标量子查询做全连接导致 ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表