论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
阿里Qwen2正式开源,性能全方位包围Llama-3 | 最新快讯 ...
阿里Qwen2正式开源,性能全方位包围Llama-3 | 最新快讯
半亩花草
论坛元老
|
2024-8-4 00:53:32
|
显示全部楼层
|
阅读模式
楼主
主题
1865
|
帖子
1865
|
积分
5595
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
Qwen 系列会是众多大学实验室新的默认根本模型吗? 斯坦福团队套壳清华大模型的事件不断发酵后,中国模型在世界上开始得到了更多关注。不少人发现,原来中国已经有不少成熟的大模型正在赶超国外。
HuggingFace 平台和社区负责人 Omar Sanseviero 曾表示,AI 社区不停在「忽视」中国呆板学习生态体系的工作,他们正在用有趣的大语言模型、视觉大模型、音频和扩散模型做一些令人惊奇的事情,如 Qwen、Yi、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、OpenBMB、Skywork、ChatTTS、Ernie、HunyuanDiT 等。
今日,阿里云通义千问团队 Qwen2 大模型开源的消息吸引了众多 AI 开发者的目光。Qwen2-72B 性能凌驾了业界闻名的开源模型 Llama3-70B,也凌驾文心 4.0、豆包 pro、混元 pro 等众多国内闭源大模型。所有人均可在魔搭社区和 Hugging Face 免费下载通义千问最新开源模型。
相比今年 2 月推出的通义千问 Qwen1.5,Qwen2 团体性能实当代际飞跃。而在上海人工智能实验室推出的权势巨子模型测评榜单 OpenCompass 中,此前开源的 Qwen1.5-110B 已领先于文心 4.0 等一众国内闭源模型。可见 Qwen2 的能力更加非凡。
OpenCompass 大模型测评榜单上,此前开源的 Qwen1.5-110B 已领先于文心 4.0 等一众国内闭源模型。
本次 Qwen2 系列
包括五种尺寸的根本和指令调优模型
,包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。
魔搭社区模型下载地点:
Qwen2-72B https://modelscope.cn/models/qwen/Qwen2-72B
Qwen2-72B-Instruct https://modelscope.cn/models/qwen/Qwen2-72B-Instruct
在先前的 Qwen1.5 系列中,只有 32B 和 110B 的模型使用了 GQA(Grouped-Query Attention)。而这一次,Qwen2 系列所有尺寸的模型都使用了 GQA。这让大家可以或许更加方便地体验到 GQA 带来的推理加速和显存占用降低的上风。针对小尺寸模型,由于 embedding 参数量较大,使用了 Tie Embedding 的方法让输入和输出层共享参数,增加非 embedding 参数的占比。
此外,所有的预训练模型均在 32K tokens 的数据上举行训练,并且研究团队发现其在 128K tokens 时依然能在 PPL 评测中取得不错的表现。然而,对指令微调模型而言,除 PPL 评测之外还必要举行大海捞针等长序列明确实验。在该表中,作者根据大海捞针实测结果,列出了各个指令微调模型所支持的最大上下文长度。而在使用 YARN 这类方法时,Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 均实现了长达 128K tokens 上下文长度的支持。
研究团队投入了大量精力研究如何扩展多语言预训练和指令微调数据的规模并提升其质量,从而提升模型的多语言能力。只管大语言模型本身具有一定的泛化性,他们还是针对性地对除中英文以外的 27 种语言举行了增强,并针对性地优化了多语言场景中常见的语言转换(code switch)问题,使模型当前发生语言转换的概率大幅度降低。使用轻易触发语言转换现象的提示词举行测试,观察到 Qwen2 系列模型在此方面能力的显著提升。
性能一览
Qwen2-72B 在针对预训练语言模型的评估中,对比当前最优的开源模型,Qwen2-72B 在包括自然语言明确、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型,如 Llama-3-70B 以及 Qwen1.5 最大的模型 Qwen1.5-110B。这得益于其预训练数据及训练方法的优化。
大规模预训练后,研究团队对模型举行精细的微调,以提升其智能水平,让其表现更靠近人类。这个过程进一步提升了代码、数学、推理、指令遵循、多语言明确等能力。微调过程遵循的原则是使训练尽可能规模化的同时并且尽可能淘汰人工标注。
研究团队探索了如何采用多种自动方法以获取高质量、可靠、有创造力的指令和偏好数据,此中包括针对数学的拒绝采样、针对代码和指令遵循的代码执行反馈、针对创意写作的回译、针对脚色扮演的 scalable oversight 等。在训练方面,开发团队联合了有监督微调、反馈模型训练以及在线 DPO 等方法,还采用了在线模型归并的方法淘汰对齐税。
Qwen2-72B-Instruct 在 16 个基准测试中的表现优秀,在提升根本能力以及对齐人类价值观这两方面取得了较好的均衡。相比 Qwen1.5 的 72B 模型,Qwen2-72B-Instruct 在所有评测中均大幅超越,并且取得了匹敌 Llama-3-70B-Instruct 的表现。而在小模型方面,Qwen2 系列模型基本可以或许超越同等规模的最优开源模型甚至更大规模的模型。相比近期推出的业界最优模型,Qwen2-7B-Instruct 依然能在多个评测上取得显著的上风,尤其是代码及中文明确上。
在代码方面,Qwen2 的研发中融入了 CodeQwen1.5 的乐成履历,实现了在多种编程语言上的显著效果提升。而在数学方面,大规模且高质量的数据帮助 Qwen2-72B-Instruct 实现了数学解题能力的飞升。
Qwen2 系列中的所有 Instruct 模型,均在 32k 上下文长度上举行训练,并通过 YARN 或 Dual Chunk Attention 等技能扩展至更长的上下文长度。下图展示了其在 Needle in a Haystack 测试集上的结果。值得留意的是,Qwen2-72B-Instruct 可以或许完善处理 128k 上下文长度内的信息抽取任务
此外,Qwen2 系列中的其他模型的表现也十分突出:Qwen2-7B-Instruct 险些完善地处理长达 128k 的上下文;Qwen2-57B-A14B-Instruct 则能处理 64k 的上下文长度;而该系列中的两个较小模型则支持 32k 的上下文长度。
自 2023 年 8 月开源以来,通义千问不但在国内开源社区中影响巨大,更是在全球开源社区中占据紧张的位置。今日,Qwen2 系列模型的 API 第一时间登陆阿里云百炼平台。在 Llama 开源生态之外,全球开发者如今拥有了更多的选择。
参考链接:
https://qwenlm.github.io/blog/qwen2/
https://x.com/JustinLin610/status/1798747072319074347
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
半亩花草
论坛元老
这个人很懒什么都没写!
楼主热帖
YOLOV5 代码复现以及搭载服务器运行 ...
本周涨粉一倍,我决定再开源一个商超管 ...
APP性能优化
Java集合框架(五)-Collections 和 泛型 ...
安装Python
经典Python题目:一个列表或者数组去重 ...
Spring5——JdbcTemplate笔记
【Redis】BigKey问题
《C++性能优化指南》 linux版代码及原 ...
随机数漫谈
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
Java
快速回复
返回顶部
返回列表