LLM论文条记 12: Teaching Arithmetic to Small Transformers

美丽的神话 · 2025-2-19 12:09:48

Arxiv日期：2023.7.7
机构：University of Wisconsin-Madison / Princeton University

关键词

算数运算推理
长度泛化
实验结论

焦点结论

1. 算数运算NTP中数据格式使用reverse或者scratchpad格式（CoT）可以明显提高准确度，cot可以明显减小必要的练习数据量

2. 数据平衡和采样策略：平衡差别位数和进位的sample明显提高性能
3. 泛化能力：对练习中未见的数值体现出肯定的泛化能力，但对未练习的更长位数加法的泛化能力有限（根本没有长度泛化）-> 学习的是一种有限的函数映射，而非机动的算法
4. 混合数据练习（文本+算术）+ few shot 明显提高精度
5. 精心计划的数据格式可以在小模型上提到极高的性能

主要方法

观察到算数运算（加减乘除开根）上简单微调NTP是次优的（如加法123+456=579第一个猜测的结果位是5，但是5由7和9决定），提出算数运算上的结构化数据（reverse / scratchpad即cot），以加法为例建模为低秩矩阵补全并提出肯定数据量产生性能跃迁。
还发现了平衡差别位数和进位的sample明显提高性能。范围性在于长度泛化几乎不出现。

注：本系列不包括基础的知识点讲解，为条记/大纲性质而非教程，用于论文知识点和思想和快速影象和回首，更多细节发起阅读论文原文

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

LLM论文条记 12: Teaching Arithmetic to Small Transformers

0 个回复

快速回复

楼主热帖

标签云