曂沅仴駦 发表于 2025-4-22 09:38:01

Qwen系列大模型和LlaMA系列大模型都使用的什么分词器

https://i-blog.csdnimg.cn/direct/212cecaa00ac47d9bb975dc039e246e4.png#pic_center
Qwen系列与LLaMA系列分词器技术深度解析

<hr> 一、Qwen系列分词器技术架构

Qwen系列(包括Qwen1.5、Qwen2等)接纳基于字节级字节对编码(Byte-level BPE)的分词器,其核心设计与优化策略如下:

[*] 底层框架与扩展性
   
[*]开源BPE实现:基于Meta的tiktoken框架(GPT-4同类技术),通过归并高频字符对构建更长的语义单元,实现文本压缩与高效分词 。   
[*]多语言优化词表:在基础词库cl100k(约10万词)上扩展,新增中文字词、成语高频短语(如“人工智能”)及多语言符号,终极词表达到152,000个Token,覆盖中文、英语、代码等场景 。   
[*]数字处置惩罚策略:将数字字符串拆分为单个数字(如“2025”→“2”“0”“2”“5”),避免长数字占用独立Token,提升对数学推理任务的支持 。

[*] 中文优化特性
   
[*]压缩率上风:Qwen分


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: Qwen系列大模型和LlaMA系列大模型都使用的什么分词器