物联网深度学习-75-大语言模型LLM之基于llama.cpp和Transformers与Qwen(通义千问)

九天猎人 发表于 2024-12-20 23:22:40

深度学习-75-大语言模型LLM之基于llama.cpp和Transformers与Qwen(通义千问)

1 Qwen2.5

Qwen(通义千问)。
Qwen2.5开源了，共有7个尺寸规模，包罗：0.5B、1.5B、3B、7B、14B、32B和72B，分别有Base模型和Instruct模型。
本次全是Dense模型，没有MoE模型。
同时还开源了Qwen2.5-Coder模型和Qwen2.5-Math模型。
还开了GGUF、GPTQ和AWQ 3种量化模型。
1.1 模型介绍

(1)训练数据从Qwen2的7T Tokens扩展到了Qwen2.5的18T tokens。
(2)上下文最大长度128K，此中超过32K的部分利用YARN来进行外推处置惩罚，而且最大天生长度8K（从1K升级到 8K），更大的输出长度意味着可以更轻易适配到cot输出上。
(3)结构化数据（如表格）明白本领更强，而且输出json结果更好，同时适配多样的系统提示词，增强角色扮演本领。
(4)更强的代码和数学本领，借助Qwen2-Math的数据到Qwen2.5上，让基模表现更好。
(5)模型仍旧采用RoPE、SwiGLU、RMSNorm和GQA。
(6)依然是多语言模型：支持29种语言，包罗中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

深度学习-75-大语言模型LLM之基于llama.cpp和Transformers与Qwen(通义千问)