LLM论文条记 11: Exploring Length Generalization in Large Language Mode ...

大号在练葵花宝典  金牌会员 | 2025-2-19 21:09:01 | 来自手机 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 897|帖子 897|积分 2691


  • Arxiv日期:2022.11.14
  • 机构:Google Research;University of Toronto
  关键词



  • length generalization(长度泛化)
  • 理论分析

焦点结论

1. 如果模子学习到了问题的算法本质,可以将问题外推到恣意长度
2. 模子更倾向于学习非序列化的“捷径”解决方案,在更长的问题实例中表现较差
3. 自注意力是一种等变变动,可以或许执行像最大池化如许的池化利用,策略不答应在差别长度的问题之间进行知识转移
4. 在微调机制中,缩放数据、模子大小和盘算并不能提高长度泛化能力

5. CoT+微调也无法推广到更长问题,干扰项是导致长度泛化失败的主要缘故原由

6. 对于有些问题in-context学习固然比微调学习好(即使有无限数据)
7. 分布内泛化不能预测长度泛化使命的 OOD 泛化

主要方法

本文系统性地研究了基于 Transformer 的大规模语言模子(LLMs)在长度泛化使命中的表现,分析了差别训练和提示策略(微调、Few-shot 提示、Scratchpad 链式推理策略)的效果与范围性。
使命:


  • Parity(奇偶校验)
  • 变量赋值

   注:本系列不包括底子的知识点讲解,为条记/大纲性子而非教程,用于论文知识点和头脑和快速记忆和回首,更多细节发起阅读论文原文

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

大号在练葵花宝典

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表