论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
大数据
›
数据仓库与分析
›
阿里Qwen系列开源模型先容
阿里Qwen系列开源模型先容
愛在花開的季節
金牌会员
|
2024-11-28 23:33:48
|
显示全部楼层
|
阅读模式
楼主
主题
826
|
帖子
826
|
积分
2478
模型种类丰富
Qwen2
:包含Qwen2-0.5b、Qwen2-1.5b、Qwen2-7b、Qwen2-57b-a14b以及Qwen2-72b等五种规模的预训练和指令微调模型,其在多语言处置惩罚、长文本处置惩罚、代码生成、数学和逻辑推理等本事上,在mmlu、gpqa、humaneval等国际测评中得到了验证,性能表现优异.
Qwen2-VL
:基于Qwen2的视觉语言大模型,包括Qwen2-VL-2B、Qwen2-VL-7B模型开源,Qwen2-VL-72B只开源了API 。该模型在视觉理解基准上到达了开始辈的性能,能理解20分钟以上的视频,还可与手机、机器人等装备集成,根据视觉情况和文本指令举行自动利用.
Qwen2.5-Coder
:阿里云通义大问于2024年11月12日开源的代码模型全系列,共6款qwen2.5-coder模型,包含0.5b/1.5b/3b/7b/14b/32b等尺寸,每个尺寸都开源了base和instruct模型,可实现代码生成、代码推理、代码修复等焦点任务性能的明显提升.
CodeQwen1.5
:基于Qwen语言模型初始化,拥有7B参数的模型,接纳GQA架构,颠末了约3T tokens代码相关的数据举行预训练,共计支持92种编程语言、且最长支持64K的上下文输入,在代码生成、长序列建模、代码修改、SQL本事等方面表现出色.
技术上风助力生态发展
高性能表现
:Qwen系列模型在多项基准测试中名列前茅,如Qwen2-72B在权势巨子测评中超过美国的Llama-3-70b等模型,这使得其在开源社区中备受关注,吸引了大量开辟者利用和基于其举行二次开辟.
多语言支持
:除了英语和中文外,Qwen2系列还担当过另外27种语言的数据训练,Qwen2-VL更是支持理解图像中多种语言的文本,这大大拓展了其应用场景和实用范围,可以或许满意全球不同地区用户的需求.
长文本处置惩罚本事
:部分模型如Qwen2-7b-instruct和Qwen2-72b-instruct支持长达128k tokens的上下文长度,可以或许更好地处置惩罚长文本内容,为一些需要处置惩罚长篇文档、复杂对话等场景的应用提供了有力支持.
社区与平台支持广泛
开源社区活跃度高
:Qwen系列模型在全球开源社区中引起了热烈反响,全球基于Qwen系列二次开辟的衍生模型数量不停增加,停止2024年9月尾已突破7.43万,逾越llama系列衍生模型的7.28万,并且有超过1500款基于Qwen二次开辟的模型和应用,这些衍生项目涵盖了众多领域和应用场景,进一步丰富了Qwen系列的开源生态.
多平台集成与支持
:Qwen系列模型已集成到Hugging Face Transformers、vLLM等第三方框架中,同时其API还登陆了阿里云百炼平台、魔搭社区等,方便开辟者下载、利用和调用模型,为开辟者提供了便捷的开辟体验,促进了模型的广泛应用和技术交流.
应用场景多样
天然语言处置惩罚领域
:可用于文本生成、问答系统、机器翻译、文本分类等多种天然语言处置惩罚任务,帮助开辟者快速构建各种智能语言应用,如智能写作助手、智能客服、知识问答平台等.
代码开辟领域
:Qwen2.5-Coder和CodeQwen1.5等代码模型,可以或许协助开辟者举行代码生成、代码理解、代码修复等工作,提高编程效率和代码质量,尤其得当编程“小白”以及需要快速生成代码框架和逻辑的开辟者.
多模态交互领域
:Qwen-VL和Qwen2-VL等多模态模型,支持图像和文本的联合处置惩罚,可应用于图像问答、视觉对话、视频内容理解与生成等场景,为用户提供更加丰富和直观的交互体验,如智能图像识别与形貌系统、视频智能分析与创作平台等.
Qwen与国内其他一些开源模型的对比
性能表现
天然语言理解与生成
:Qwen2-72b在多个权势巨子测评中,如mmlu、gpqa等,表现突出,其性能大幅逾越了著名的开源模型Llama3-70b、Mixtral-8x22b等,在天然语言理解、知识、多语言等多项本事上展现出强大的上风,取得了十几项世界冠军 。而智谱AI的ChatGLM-4-9B模型则在中文学科本事上有明显提升,相比ChatGLM3-6B提升了50%,在综合本事上也提升了40%,在中文相关的天然语言处置惩罚任务中有着较好的表现.
代码与数学本事
:Qwen2系列模型汲取了CodeQwen1.5的强大代码履历,在代码和数学本事上实现了明显提升。例如,Qwen2-72b-instruct在8种编程语言上的性能逾越了Llama-3-70b-instruct,在多个数学基准测试中性能也分别逾越了Llama-3-70b-instruct 。智谱AI的ChatGLM系列模型也具备肯定的代码理解和生成本事,智谱清言提供了丰富的文档和代码功能,允许用户根据自身行业需求对模型举行训练和优化.
长文本处置惩罚本事
:Qwen2系列中的72b指令微调版模型增大了上下文长度支持,最高可达128k token,在大海捞针实验中,可以或许完美处置惩罚128k上下文长度内的信息抽取任务,表现优于其他多数开源模型。相比之下,Llama2 Long具有长达32,000个token的上下文窗口,也能较好地处置惩罚长文本,但Qwen2-72b在长文本处置惩罚本事上更为突出.
模型架构与技术特点
Qwen
:Qwen模型利用了大规模数据举行训练,数据量到达3万亿个token,数据源广泛,涵盖公共网页文档、百科全书、书籍等,同时包含多语言数据,尤其是英语和汉语。模型接纳了Transformer架构,并联合了多种技术创新,如所有尺寸的模型都利用了分组查询注意力(GQA),从而使得模型推理大大加快,显存占用显着降低.
ChatGLM
:基于智谱AI自主研发的中英双语对话模型ChatGLM2架构,接纳了多层感知机(MLP)等技术,对模型举行了优化和改进,以提高模型的性能和效率。其模型架构在处置惩罚中文文本时具有肯定的上风,可以或许更好地顺应中文语言的特点和表达风俗.
百川
:接纳了Transformer架构,并对其举行了修改,例如利用RoPE和Alibi位置编码、SwiGLU激活函数和Xformers优化注意力等,这些改进有助于提高模型的性能和效率,使其在多项基准测试中表现出色.
数据与训练
数据规模与质量
:Qwen模型的数据量巨大,且颠末了严格的数据预处置惩罚,包括去重、基于规则和机器学习方法的过滤、采样等,以保证数据质量,提高模型的泛化本事。百川2利用了包含2.6万亿词元的训练语料,数据来源广泛,包括互联网、书籍、论文和代码库等内容,同样颠末了精心的筛选和处置惩罚,以确保数据的高质量和多样性.
训练方法
:Qwen在模型训练方面,联合了有监视微调、反馈模型训练以及在线DPO等方法,还接纳了在线模型合并的方法减少对齐税,提升了模型的基础本事以及智能水平。百川2则接纳了分布式训练,并利用了混淆精度、参数分割等技术来训练大规模参数模型,同时还对模型举行了多方面的优化,如监视微调、嘉奖模型训练、PPO强化学习等.
开源生态与社区支持
Qwen
:阿里云开源的Qwen系列模型,在不到一年时间,总下载量已突破1600万次,并且在国内外开源社区,基于Qwen二次开辟的模型和应用已经超过1500款,开源生态发展迅速,社区活跃度高,得到了全球开辟者的广泛关注和参与.
ChatGLM
:智谱AI开源的ChatGLM系列模型,也拥有巨大的用户群体和活跃的社区,智谱AI不停更新和优化模型,为开辟者提供了丰富的文档和技术支持,促进了开源生态的发展,推动了模型在天然语言处置惩罚领域的广泛应用.
百川
:百川的开源也为国内的大模型研究和应用做出了紧张贡献,其开源模型在社区中得到了肯定的关注和利用,研究人员和开辟者可以基于百川模型举行各种实验和开辟,推动语言模型技术的不停进步.
安全性
Qwen2-72b-instruct模型在安全性方面与GPT-4的表现相当,并且明显优于Mixtral-8x22b模型,在处置惩罚多语言不安全查询时,可以或许有效降低生成有害响应的比例。百川2也通过了多项安全评估,显示其安全性优于其他一些开源语言模型.
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
愛在花開的季節
金牌会员
这个人很懒什么都没写!
楼主热帖
流批一体开源项目ChunJun技术公开课— ...
Redis 原理 - Hash
HA启动Advanced SSH & Web Terminal 提 ...
SpringBoot
一次服务器被入侵的处理过程分享 ...
dotnet C# 使用 Vortice 支持 Direct2D ...
Redis持久化
Flink 作业提交流程
keepalived安装配置
【网络进阶】网络问题排查实例集锦(实 ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表