【阿里YYDS】通义千问正式开源 Qwen2

打印 上一主题 下一主题

主题 665|帖子 665|积分 1995

Qwen2–72B正式开源,性能全面超越开源模型Llama3-70B,也凌驾文心4.0、豆包pro、混元pro等众多中国闭源大模型。

在已往一段时间里,Qwen系列模型从Qwen1.5升级到Qwen2,Qwen2分5个尺寸,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。此次开源的Qwen2是阿里云最强模型,现在已经在Hugging Face和ModelScope上同步开源信息,用户可下载利用。Qwen2-72B上下文长度到达128K tokens,在自然语言明白、知识、代码、数学及多语言本领上均有出色表现。在基准测试中,可以匹敌Llama-3-70B-Instruct。
下载地址: https://modelscope.cn/organization/qwen

在Qwen1.5系列中,只有32B和110B的模型利用了GQA。这一次,全部尺寸的模型都利用了GQA,以便让各人体验到GQA带来的推理加速和显存占用低落的优势。针对小模型,由于embedding参数目较大,利用了tie embedding的方法让输入和输出层共享参数,增加非embedding参数的占比。而且不但在中英文中训练,还加入了27种语言的训练集。

指令

同时还推出了Instruct版本,而不是Chat版本。

Qwen2-72B-Instruct在提升基础本领以及对齐人类价值观这两方面取得了较好的均衡。相比Qwen1.5的72B模型,Qwen2-72B-Instruct在全部评测中均大幅超越,而且了取得了匹敌Llama-3-70B-Instruct的表现。
而在小模型方面,Qwen2系列模型基本可以或许超越同等规模的最优开源模型甚至更大规模的模型。相比近期推出的最好的模型,Qwen2-7B-Instruct依然能在多个评测上取得显著的优势,尤其是代码及中文明白上。
代码 & 数学


长上下文

Qwen2系列中的全部Instruct模型,均在32k上下文长度上进行训练,并通过YARN或Dual Chunk Attention等技术扩展至更长的上下文长度。
别的,Qwen2系列中的其他模型的表现也非常突出:Qwen2-7B-Instruct险些完善地处理长达128k的上下文;Qwen2-57B-A14B-Instruct则能处理64k的上下文长度;而该系列中的两个较小模型则支持32k的上下文长度。

安全

下表展示了大型模型在四种多语言不安全查询类别(非法活动、欺诈、色情、隐私暴力)中生成有害响应的比例。测试数据来源于Jailbreak,并被翻译成多种语言进行评估。我们发现Llama-3在处理多语言提示方面表现不佳,因此没有将其纳入比力。通过显著性查验(P值),发现Qwen2-72B-Instruct模型在安全性方面与GPT-4的表现相当,而且显著优于Mixtral-8x22B模型。

开源活动的焦点是科学的延伸。艾萨克·牛顿爵士写道:“假如我能看的更远,是因为我站在巨人的肩膀上。” 历史上最巨大的思想家之一承认,他对人类巨大明白的贡献不是来自他单一的天才,而是来自成千上万的巨大或眇小思想共同创造出的一个可以被他的特别思想火花点燃并变化的世界。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

伤心客

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表