ToB企服应用市场:ToB评测及商务社交产业平台
标题:
LLM论文条记 12: Teaching Arithmetic to Small Transformers
[打印本页]
作者:
美丽的神话
时间:
2025-2-19 12:09
标题:
LLM论文条记 12: Teaching Arithmetic to Small Transformers
Arxiv日期:2023.7.7
机构:University of Wisconsin-Madison / Princeton University
关键词
算数运算推理
长度泛化
实验结论
焦点结论
1. 算数运算NTP中数据格式使用
reverse
或者
scratchpad
格式(CoT)可以明显提高准确度,cot可以明显减小必要的练习数据量
2. 数据平衡和采样策略:平衡差别位数和进位的sample明显提高性能
3. 泛化能力:对练习中未见的数值体现出肯定的泛化能力,但对未练习的更长位数加法的泛化能力有限(根本没有长度泛化)->
学习的是一种有限的函数映射
,而非机动的算法
4. 混合数据练习(文本+算术)+ few shot 明显提高精度
5.
精心计划的数据格式
可以在小模型上提到极高的性能
主要方法
观察到算数运算(加减乘除开根)上简单微调NTP是次优的(如加法123+456=579第一个猜测的结果位是5,但是5由7和9决定),提出
算数运算上的结构化数据
(reverse / scratchpad即cot),以加法为例建模为低秩矩阵补全并提出肯定数据量产生性能跃迁。
还发现了平衡差别位数和进位的sample明显提高性能。范围性在于长度泛化几乎不出现。
注:本系列不包括基础的知识点讲解,为条记/大纲性质而非教程,用于论文知识点和思想和快速影象和回首,更多细节发起阅读论文原文
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)
Powered by Discuz! X3.4