AI届的新宠:小语言模型(SLM)?

打印 上一主题 下一主题

主题 988|帖子 988|积分 2964

大语言模型(LLM)在过去几年产生了巨大影响,特别是随着OpenAI的ChatGPT的出现,各种大语言模型如雨后春笋般出现,国内如KimiChat、通义千问文心一言智谱清言等。
然而,大语言模型通常拥有巨大的参数,从数十亿到数千亿,乃至到数万亿。好比通义千问发布的开源模型就包含了70亿、140亿和720亿等多个规模的版本;而近来发布的Llama3大模型则是有80亿和700亿两个版本;而广为人知的ChatGPT3最大的一个模型参数则达到了1750亿!
大模型的参数越多,一样平常意味着它能够捕捉和处理更丰富的信息和更复杂的模式,也就是回答的效果会更好,但是它们对于个人电脑、智能手机和其他智能设备等设备来说计算量却太大(尽管出现了量化等技能)。
由于上述原因,人们对小语言模型(SLM)的兴趣日益浓厚,而且在近来也出现了几款比较出名的小语言模型,请允许我娓娓道来。
1、Phi-3 模型
Phi-3是微软近来发布的一系列开放式 AI 模型,而且也是现有功能最强大、最具本钱效益的小语言模型。
现在只提供了 mini 版本,即 Phi-3-mini ,这个版本拥有38亿个参数(也就是3.8B),颠末3.3 万亿 token 的训练,而且被优化至可部署在手机上
如果想体验的话,可以在[Microsoft Azure AI Studio],大概我们之条件到过的Ollama上使用。
Phi-3-mini 一共支持两种上下文,分别是4K和128K,此中128K的上下文长度是同类产物第一个支持的,而且对质量影响很小。
而且 Phi-3-mini 是颠末指令微调的,这意味着它可以开箱即用!
虽然Phi-3 mini 参数很小,但是它体现良好,能够与Mixtral 8x7B 和 GPT-3.5 等模型相媲美!
注:Phi-3 在究竟基准测试上(如TriviaQA)体现不佳,这是因为较小的模型大小会导致保存究竟的本领较低
最后,微软在后续的几周内还会推出7B和14B两个型号,也就是图中的Phi-3-smallPhi-3-medium。
2、OpenELM 模型
OpenELM是Apple团队近来发布的模型,这是一个旨在在手机和笔记本电脑上运行的开源小语言模型 (SLM) 系列。
这个系列一共包含了2.7亿、4.5亿、11亿和30亿四个参数版本(有预训练和指令微调版本,一共8个型号)。
OpenELM 模型的突出特点是其内存和计算服从。它们建立在一系列最新的优化技能之上,这些技能淘汰了语言模型的内存和计算占用量。
根据Apple团队的形貌,OpenELM 还使用了分层缩放策略,即以非均匀的方式将参数分配给注意力层和前馈层,这与经典的 Transformer 模型相反,经典的 Transformer 模型在全部层上具有统一的布局。
这种策略在参数预算约为 10 亿个参数的环境下,与 OLMo 相比,精度进步了 2.36%,同时必要的预训练令牌淘汰了 2 倍。
根据Apple发布的论文,在性能上,OpenELM 的性能优于使用公开数据集进行预训练的现有开源 LLM,如下图

值得一提的是,苹果这次发布了完备的框架,包括数据准备、训练、微调和评估步伐,以及多个预训练的 checkpoint 和训练日记,其目标是“赋权和增强开放研究社区”,这与苹果之前的闭源生态形成了鲜明对比!
如果对OpenELM想了解更多的话,可以阅读其论文,这是地点:[arxiv.org/pdf/2404.14…]
3、Gemma 模型
Gemma 由 Google DeepMind 和 Google 的其他团队开发,灵感来自 Gemini,其名称反映了拉丁语gemma,意思是“宝石”。
Google一共发布了两种尺寸的模型,分别是[Gemma 2B 和 Gemma 7B],每个尺寸都发布了颠末预训练和指令调整的变体,而且能够直接在开发人员笔记本电脑或台式电脑上运行。
在官方的博客上提到,由于Gemma 模型与Gemini模型共享技能和基础设施组件,这使得Gemma能够在同尺寸其他模型中保持比较好的性能,下面是Gemma和Llama-2的一个对比。

值得注意的是,Gemma还有两个变体,分别是CodeGemmaRecurrentGemma
CodeGemma 注重的是编码功能,它也有几个不同的版本:一个7B的预训练变体,专门用于代码补全和代码生成使命;一个7B的指令调整变体,用于代码聊天和指令执行;还有一个2B的预训练变体,实用于快速代码补全,而且可以安装在你的当地计算机上。
这是CodeGemma与其他类似模型在单行和多行代码完成使命上的体现

RecurrentGemma 注重的是推理本领,与其他模型不同的是,它并没有采用现在LLM的Transformer架构,而是基于Google新的[Griffin 架构]。
在Google的博客中提到,这种 Griffin 架构是一种比较独特的布局,主要利用了循环神经网络和局部注意力来进步影象服从。
   

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

石小疯

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表