论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
数据库
›
分布式数据库
›
AI届的新宠:小语言模型(SLM)?
AI届的新宠:小语言模型(SLM)?
石小疯
金牌会员
|
2024-7-31 02:14:23
|
显示全部楼层
|
阅读模式
楼主
主题
988
|
帖子
988
|
积分
2964
大语言模型(LLM)在过去几年产生了巨大影响,特别是随着OpenAI的ChatGPT的出现,各种大语言模型如雨后春笋般出现,国内如KimiChat、
通义千问
、
文心一言
和
智谱清言
等。
然而,大语言模型
通常拥有巨大的参数
,从数十亿到数千亿,乃至到数万亿。好比通义千问发布的开源模型就包含了70亿、140亿和720亿等多个规模的版本;而近来发布的Llama3大模型则是有80亿和700亿两个版本;而广为人知的ChatGPT3最大的一个模型参数则达到了1750亿!
大模型的参数越多,一样平常意味着它能够捕捉和处理更丰富的信息和更复杂的模式,也就是回答的效果会更好,但是它们对于
个人电脑、智能手机和其他智能设备等设备来说计算量却太大(尽管出现了量化等技能)。
由于上述原因,人们对小语言模型(SLM)的兴趣日益浓厚,而且在近来也出现了几款比较出名的小语言模型,请允许我娓娓道来。
1、Phi-3 模型
Phi-3是微软近来发布的一系列开放式 AI 模型,而且也是现有功能
最强大、最具本钱效益的小语言模型。
现在只提供了 mini 版本,即 Phi-3-mini ,这个版本拥有38亿个参数(也就是3.8B),颠末3.3 万亿 token 的训练,而且
被优化至可部署在手机上
。
如果想体验的话,可以在[Microsoft Azure AI Studio],大概我们之条件到过的Ollama上使用。
Phi-3-mini 一共支持两种上下文,分别是4K和128K,此中128K的上下文长度是同类产物第一个支持的,而且对质量影响很小。
而且 Phi-3-mini 是颠末指令微调的,这意味着它可以开箱即用!
虽然Phi-3 mini 参数很小,但是它体现良好,能够与Mixtral 8x7B 和 GPT-3.5 等模型相媲美!
注:
Phi-3 在究竟基准测试上(如TriviaQA)体现不佳,这是因为较小的模型大小会导致保存究竟的本领较低
最后,微软在后续的几周内还会推出7B和14B两个型号,也就是图中的
Phi-3-small
和
Phi-3-medium。
2、OpenELM 模型
OpenELM是Apple团队近来发布的模型,这是一个旨在在
手机和笔记本电脑
上运行的开源小语言模型 (SLM) 系列。
这个系列一共包含了2.7亿、4.5亿、11亿和30亿四个参数版本(有预训练和指令微调版本,一共8个型号)。
OpenELM 模型的突出特点是其内存和计算服从。它们建立在一系列最新的优化技能之上,这些技能淘汰了语言模型的内存和计算占用量。
根据Apple团队的形貌,OpenELM 还使用了
分层缩放策略
,即以非均匀的方式将参数分配给注意力层和前馈层,这与经典的 Transformer 模型相反,经典的 Transformer 模型在全部层上具有
统一
的布局。
这种策略在参数预算约为 10 亿个参数的环境下,与 OLMo 相比,精度进步了 2.36%,同时必要的预训练令牌淘汰了 2 倍。
根据Apple发布的论文,在性能上,OpenELM 的性能优于
使用公开数据集进行预训练
的现有开源 LLM,如下图
值得一提的是,苹果这次发布了完备的框架,包括数据准备、训练、微调和评估步伐,以及多个预训练的 checkpoint 和训练日记,其目标是“赋权和增强开放研究社区”,
这与苹果之前的闭源生态形成了鲜明对比!
如果对OpenELM想了解更多的话,可以阅读其论文,这是地点:[arxiv.org/pdf/2404.14…]
3、Gemma 模型
Gemma 由 Google DeepMind 和 Google 的其他团队开发,灵感来自 Gemini,其名称反映了拉丁语gemma,意思是“宝石”。
Google一共发布了两种尺寸的模型,分别是[Gemma 2B 和 Gemma 7B],每个尺寸都发布了
颠末预训练和指令调整的变体,而且能够直接在开发人员笔记本电脑或台式电脑上运行。
在官方的博客上提到,由于Gemma 模型与Gemini模型共享技能和基础设施组件,这使得Gemma能够在同尺寸其他模型中保持比较好的性能,下面是Gemma和Llama-2的一个对比。
值得注意的是,Gemma还有两个变体,分别是
CodeGemma
和
RecurrentGemma
CodeGemma 注重的是编码功能,它也有几个不同的版本:
一个7B的预训练变体
,专门用于代码补全和代码生成使命;
一个7B的指令调整变体
,用于代码聊天和指令执行;还有一个
2B的预训练变体
,实用于快速代码补全,而且可以安装在你的当地计算机上。
这是CodeGemma与其他类似模型在单行和多行代码完成使命上的体现
RecurrentGemma 注重的是推理本领,与其他模型不同的是,它并没有采用现在LLM的
Transformer架构
,而是基于Google新的[Griffin 架构]。
在Google的博客中提到,这种 Griffin 架构是一种比较独特的布局,主要利用了
循环神经网络和局部注意力
来进步影象服从。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
石小疯
金牌会员
这个人很懒什么都没写!
楼主热帖
解决图片无法设置hover,以设置图片的 ...
解决OpenCV的imread/imwrite在Qt环境不 ...
SQL的多表查询
Hive安装与启动
qrtz表初始化脚本_mysql
C# GDI+ 画心形 跳动动画
几个函数的使用例子:更新VBRK-XBLNR, ...
在 NGINX 中根据用户真实 IP 进行限制 ...
堆Pwn:House Of Storm利用手法
MySQL基础(DDL、DML、DQL)
标签云
运维
CIO
存储
服务器
浏览过的版块
DevOps与敏捷开发
快速回复
返回顶部
返回列表