解密prompt系列52. 闲聊大模型还有什么值得探索的领域

反转基因福娃 · 2025-4-9 08:46:48

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

在DeepSeek-R1的开源狂欢之后，感觉不少朋友都陷入了技能舒服区，但其实当前的大模型技能只是跨进了应用阶段，可以探索的领域还有不少，以是这一章咱不聊论文了，偶尔不脚踏实地，单纯仰望天空，聊聊还有什么风趣值得探索的领域，哈哈有可能单纯是最近科幻小说看太多的产物~
尚未攻克的持续学习

当前的大模型训练还是阶段式的，OpenAI每隔几个月就会对模型进行重新训练，延长模型的世界知识停止时间。说白了就是全新、覆盖式的知识写入。就像西西弗斯推石头，每次全量训练都意味着对先前知识的体系性遗忘。而真正意义上的持续学习和试试学习，当前好像还是个未解之谜。当然也有观点以为有机体的进化，本身就和无机体的进化存在完全不同的路径，以是大模型是否真的需要持续学习，不少人也是打问号的。
之前接触到的真正使用在线更新的主要在保举领域，基于实时发生的用户是非行为序列进行持续的模型训练和迭代更新。但是这类模型本质只是行为表征和拟合，和当前的大模型还是有比较大的区别。而在NLP领域虽然之前有不少元学习，持续学习的论文发表，但是和R1的RL训练，ChatGPT的SFT指令训练一对比就会发现，它们可能还没找到精确的打开方式。其实从Word2Vec、Bert、CLIP、ChatGPT、R1不难看出，每个划时代的模型所使用的技能本身基本都符合大道至简的原理，匠气更少一些，Scaling曲线更长一些。
持续学习其实包罗多个方面，比较重要的一个是单纯的增量世界知识的补充，也就是在模型上一次停止训练后至当代界上增量产生的知识和信息。之前训练模式在持续训练上最大的题目就是灾难遗忘，学了新的忘了旧的，捡了芝麻丢了西瓜。这里纯纯个人料想的一个可能原因来自于当前Transformer模型结构中，模型习得的语言本领、世界知识、任务完成本领、思考推理本领，这些本领是纠缠在一起存储在Transformer参数中的。导致继续学习的过程中我们只学知识，就会遗忘任务完成本领；只补充任务完成本领，不更新知识就会增加模型幻觉（模型以为本身行了！其实并不行）。但如果有结构能把以上本领分层解耦，知识既客观事实的存储纯靠背诵，推理本领更多依赖模型基于反馈探索优化，而语言本领其实没有更新的须要。甚至模型可以在实现推理和语言本领稳定的情况下，持续更新知识，大概对知识存储定期进行蒸馏压缩。之前一些知识编辑的论文其实就研究过大模型的知识存储，并发现在MLP层其实存在知识以Key-Value键值对形式存储。
持续学习的另一个方向是推理和任务完成本领，是基于大模型在使用工具完成任务的过程中，收到的情况给予的反馈，模型需要基于反馈优化行为路径和任务完成形式，这样才能在不断的练习中逐步提高任务完成的乐成率。哈哈那借鉴《三体》中的文明进化机制，我们是否可以为模型构建假造生态圈，类似斯坦福小镇等"AI 沙盒"，大模型本身是Policy，由沙盒本身生成大模型的任务todo，并评估模型的完成效果，生成反馈信号。沙盒中也允许模型接入各类MCP接口去和情况进行交互，还可以在沙盒情况中动态参加各类束缚和竞争条件，例如

动态奖励：基于任务完成度进行推理资源的动态分配，鼓励模型用更少的资源办理更复杂的题目
种群竞争：多智能体同一任务完成效果对比择优
情况突变模拟：随机修改MCP接口，让模型动态适应和情况的不同交互

内生化RAG是什么样子

除了模型本身本领的持续进化，另一个好像进入技能共识的就是RAG检索增强技能。当前办理模型获取实时信息的方式还是比较传统上一代的搜刮方案，构建知识库，Query改写，多路召回，粗排精排，虽然Knowledge Retriever的每一步都可以使用大模型进行本领增强但整个知识、实时信息获取的模块还是完全外挂在模型之外的，其实是上一代搜刮技能和这一代大模型技能的拼接式实现方案。这种方案有什么题目呢？
一个就是模型上文的有限长度，虽然通过各种留意力机制改进和前期的长上文训练，模型的上文context已经从最早的1024一路狂飙到了几十K的长度，但依旧难以制止在更长文本上答复效果的衰减。而之以是上文的长度会更长更长，来自于通过搜刮召回、多轮对话的信息是线性平铺，没有颠末压缩处置惩罚。
R1之后我也在想题目标表现形式和题目标办理方案可能是不一致的，就像我们看到模型推理过程中存在反思，纠错，生成新的假设，就以为这可能是树形的思考结构。而R1证明线性思考链路+Attention留意力机制也可以实现，那是否有可能上面提到的这种压缩处置惩罚也是可以通过Attention直接实现的呢？但现在的我（哈哈未来的我不一定这么想）以为Attention并不足够，因为之前所有Attention的改良都在提高Aettention对各个位置、各个长度信息的高效定位和选择本领，但这只是信息选择，而非信息压缩，选择只是信息的拼接，而压缩能产生信息之外的智能和抽象概念。有些类似GraphRAG的节点和关系抽象，但是又不想Graph受到三元组形式的限定。
以是我就想那是否有可能在模型使用检索上文进行推理的同时，对这部门上文进行重新的压缩编码并存储到另一个独立的存储模块，之后每一次答复模型都会使用存储模块和外部检索一同答复。并随着模型不断答复题目，存储模块的内容范围会持续扩展，而每次对存储模块的更新，都是新一轮的知识压缩，知识消歧，从知识中反思形成新的思考，这样存储中知识的密度会越来越高而长度却不会发生线性增长。看到最近英伟达推出的star Attention其实就有类似的context先编码再进行推理的思绪，不过只涉及到一次信息压缩，没有更深条理多步的压缩和反思，类似于on-the-fly的推理信息压缩方式。还有有一个开源项目Mem0也有类似的思绪，会通过工程设计不断对对话的上文历史进行总结抽象，冲突消解并形成是非期、不同范例的影象存储。
另一个就是搜刮本领和模型本领的不匹配，搜刮引擎一次搜刮返回的信息深度和广度都比较有限，前一年主要方案是利用大模型去进行query改写，从多个角度一起检索，但这种方案的弊端就是闭着眼睛撒网全凭运气，改写的好题目就能答复，改写的欠好就完蛋。于是在大模型本领（反思本领为主）逐步提升的当前，又出现了以模型反思驱动的链式搜刮推理模式，包括OpenAI的Deep Research，以及jina, Dify，Huggingface推出的更多开源版模式相似的Deep Search实现方案（对于Research和Search的边界其实非常模糊，请不要纠结这个题目，齐备以效果和详细办理的题目为主）。概念很好懂，就是每轮都是有限搜刮，然后让模型判定对于答复用户提问还需要补充哪些信息，然后生成新的搜刮query，再去搜刮，对信息进行补充更新，然后迭代下去，直到模型判定Okay。
这种方式我们测试后信息密度和信息丰富度，在使用O1，R1以上的模型后，会有显著的提升，但使用非思考类的模型，效果基本和我们人工调优后的多步RAG效果差异不大，但速率要显著慢许多。原因也简朴多数题目还是能通过前期规划和2步以内的信息补充完成，而超过这个复杂程度的题目，对模型本身思考推理本领的要求也就变得很高。但这种方式的题目就在于整个流程的时间会变得不可控制，短则几分钟，长则几十分钟。当然和人工网络信息的速率相比是快的，但是好像又和我们理想中的Javis有了比较大的差距。
以是想要加速信息网络的过程，我们跳出Deep Research的框架，是否有可能把模型被动获取信息，转换成模型主动获取并存储信息，类似把模型直接接入数据流，持续处置惩罚、筛选、整合、并进行压缩编码。这样搜刮的过程就不再是调用搜刮引擎去访问外部数据，而是直接借助Attention在编码的数据库中直接获取有用信息，信息提取服从，和信息获取的丰富度都是都会更好。最大的难点不在于构建实时世界的数据流，究竟可以先做一个子领域，像金融资讯的场景流式数据许多，难点主要在于如何流式处置惩罚数据并压缩编码成和模型内生参数处于同一个高维空间的数据库。究竟这份数据并不随模型一起训练，以是如何保证向量空间的一致是最大的题目，大概训练个Adapter类似多模态的桥接模型。最近看到谷歌出的Titan其实已经开始探索这些方向啦，下一章我们就围绕影象展开聊聊。
哈哈哈这一章就聊这么多，也是最近代码看的多，论文读的少，确实没看到啥值得分享的，以是又水了一章真棒！
想看更全的大模型论文·微调预训练数据·开源框架·AIGC应用 >> DecryPrompt

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

解密prompt系列52. 闲聊大模型还有什么值得探索的领域

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块