Sky-T1:在450美元内训练自己的O1预览模子

打印 上一主题 下一主题

主题 1038|帖子 1038|积分 3114

简介

Sky-T1-32B 是由加州大学伯克利分校的 NovaSky 团队开发的一款高性能、低成本且完全开源的大规模推理模子。该模子拥有 320 亿个参数,训练成本却不到 450 美元,这紧张得益于高效的训练方法和合成数据的应用26。与以往需要数百万美元才能完成训练的大型语言模子相比,Sky-T1-32B 的出现标志着一个紧张的里程碑,它不仅降低了进入门槛,也为研究职员和开发者提供了一个强盛的工具来探索先辈的自然语言处理(NLP)技术。

训练环境

Sky-T1-32B 的训练是在一组8个 Nvidia H100 GPU 上举行的,整个过程大约耗时19小时。这种硬件设置相对较为常见,意味着更多的研究机构和个人开发者可以大概复制这一成果,从而推动了 AI 技术的发展。别的,团队还特殊指出,通过使用合成数据集,他们可以大概在包管模子性能的同时大幅淘汰实际所需的盘算资源,这对于促进人工智能领域的可持续发展具有紧张意义。

完全开源:共同推动进步

为了确保团队的工作惠及更广泛的社区,novasjy完全致力于开源协作。开源所有细节(即数据、代码、模子权重),使社区可以大概轻松复制和改进团队的结果:


  • 基础设施:在单个存储库中构建数据、训练和评估模子。
  • 数据:用于训练Sky-T1-32B-Review的17K数据。
  • 技术细节:我们的技术报告和魔杖日记。
  • 型号重量:我们的32B模子权重。

性能表现

在多个基准测试中,Sky-T1-32B 展现出了令人印象深刻的表现。例如,在 MATH500(一套竞赛级别的数学挑战题)上,Sky-T1-32B 的结果优于 o1 的早期预览版本;而在 LiveCodeBench(一种编程评估平台)上的难题解答方面,同样凌驾了 o1 的预览版本。这些成就证明了 Sky-T1-32B 不仅能在复杂的数学问题求解中取得优异的结果,而且在代码生成、优化以及错误检测等编程相关使命中也表现出色。

相关文献

novasky团队模子相关文献地址
伯克利实验室官网
modelscope模子下载地址

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

汕尾海湾

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表