深度学习-75-大语言模型LLM之基于llama.cpp和Transformers与Qwen(通义千问)
1 Qwen2.5Qwen(通义千问)。
Qwen2.5开源了,共有7个尺寸规模,包罗:0.5B、1.5B、3B、7B、14B、32B和72B,分别有Base模型和Instruct模型。
本次全是Dense模型,没有MoE模型。
同时还开源了Qwen2.5-Coder模型和Qwen2.5-Math模型。
还开了GGUF、GPTQ和AWQ 3种量化模型。
1.1 模型介绍
(1)训练数据从Qwen2的7T Tokens扩展到了Qwen2.5的18T tokens。
(2)上下文最大长度128K,此中超过32K的部分利用YARN来进行外推处置惩罚,而且最大天生长度8K(从1K升级到 8K),更大的输出长度意味着可以更轻易适配到cot输出上。
(3)结构化数据(如表格)明白本领更强,而且输出json结果更好,同时适配多样的系统提示词,增强角色扮演本领。
(4)更强的代码和数学本领,借助Qwen2-Math的数据到Qwen2.5上,让基模表现更好。
(5)模型仍旧采用RoPE、SwiGLU、RMSNorm和GQA。
(6)依然是多语言模型:支持29种语言,包罗中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]