LLM论文条记 11: Exploring Length Generalization in Large Language Mode ...

大号在练葵花宝典 · 2025-2-19 21:09:01

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

Arxiv日期：2022.11.14
机构：Google Research；University of Toronto

关键词

length generalization（长度泛化）
理论分析

焦点结论

1. 如果模子学习到了问题的算法本质，可以将问题外推到恣意长度
2. 模子更倾向于学习非序列化的“捷径”解决方案，在更长的问题实例中表现较差
3. 自注意力是一种等变变动，可以或许执行像最大池化如许的池化利用，策略不答应在差别长度的问题之间进行知识转移
4. 在微调机制中，缩放数据、模子大小和盘算并不能提高长度泛化能力

5. CoT+微调也无法推广到更长问题，干扰项是导致长度泛化失败的主要缘故原由

6. 对于有些问题in-context学习固然比微调学习好（即使有无限数据）
7. 分布内泛化不能预测长度泛化使命的 OOD 泛化

主要方法

本文系统性地研究了基于 Transformer 的大规模语言模子（LLMs）在长度泛化使命中的表现，分析了差别训练和提示策略（微调、Few-shot 提示、Scratchpad 链式推理策略）的效果与范围性。
使命：

Parity（奇偶校验）
变量赋值

注：本系列不包括底子的知识点讲解，为条记/大纲性子而非教程，用于论文知识点和头脑和快速记忆和回首，更多细节发起阅读论文原文

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

用户名		自动登录	找回密码
密码			立即注册

LLM论文条记 11: Exploring Length Generalization in Large Language Mode ...

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块

LLM论文条记 11: Exploring Length Generalization in Large Language Mode ...

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块

登录参与点评抽奖加入IT实名职场社区