用户名
Email
论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
帖子
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
数据库
›
Oracle
›
LLM论文条记 11: Exploring Length Generalization in L ...
LLM论文条记 11: Exploring Length Generalization in Large Language Mode ...
大号在练葵花宝典
论坛元老
|
2025-2-19 21:09:01
|
来自手机
|
显示全部楼层
|
阅读模式
楼主
主题
1538
|
帖子
1538
|
积分
4614
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
Arxiv日期:2022.11.14
机构:Google Research;University of Toronto
关键词
length generalization(长度泛化)
理论分析
焦点结论
1. 如果模子学习到了问题的
算法本质
,可以将问题外推到恣意长度
2. 模子更倾向于学习
非序列化的“捷径”解决方案
,在更长的问题实例中表现较差
3. 自注意力是一种等变变动,可以或许执行像最大池化如许的池化利用,策略不答应在差别长度的问题之间进行知识转移
4. 在微调机制中,缩放数据、模子大小和盘算并不能提高长度泛化能力
5. CoT+微调也无法推广到更长问题,干扰项是导致长度泛化失败的主要缘故原由
6. 对于有些问题in-context学习固然比微调学习好(即使有无限数据)
7. 分布内泛化不能预测长度泛化使命的 OOD 泛化
主要方法
本文系统性地研究了基于 Transformer 的大规模语言模子(LLMs)在长度泛化使命中的表现,分析了差别训练和提示策略(
微调、Few-shot 提示、Scratchpad 链式推理策略
)的效果与范围性。
使命:
Parity(奇偶校验)
变量赋值
注:本系列不包括底子的知识点讲解,为条记/大纲性子而非教程,用于论文知识点和头脑和快速记忆和回首,更多细节发起阅读论文原文
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
大号在练葵花宝典
论坛元老
这个人很懒什么都没写!
楼主热帖
记一次MySql唯一索引在left join连表查 ...
鸿蒙系统架构分析
2021年高教杯数学建模国赛C题的解题过 ...
C# 使用dataGridView导入导出excel(NPO ...
STM32F1与STM32CubeIDE编程实例-磁簧开 ...
【大话云原生】微服务篇-五星级酒店的 ...
MySQL实战45讲 3
springboot请求参数的方法分享 ...
渗透测试过程参考
GO实现Redis:GO实现内存数据库(3) ...
标签云
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
数据安全
DevOps与敏捷开发
登录参与点评抽奖加入IT实名职场社区
下次自动登录
忘记密码?点此找回!
登陆
新用户注册
用其它账号登录:
关闭
快速回复
返回顶部
返回列表