Qwen系列大模型和LlaMA系列大模型都使用的什么分词器

打印 上一主题 下一主题

主题 1792|帖子 1792|积分 5376


Qwen系列与LLaMA系列分词器技术深度解析

<hr> 一、Qwen系列分词器技术架构

Qwen系列(包括Qwen1.5、Qwen2等)接纳基于字节级字节对编码(Byte-level BPE)的分词器,其核心设计与优化策略如下:

  • 底层框架与扩展性
         
    • 开源BPE实现:基于Meta的tiktoken框架(GPT-4同类技术),通过归并高频字符对构建更长的语义单元,实现文本压缩与高效分词 。   
    • 多语言优化词表:在基础词库cl100k(约10万词)上扩展,新增中文字词、成语高频短语(如“人工智能”)及多语言符号,终极词表达到152,000个Token,覆盖中文、英语、代码等场景 。   
    • 数字处置惩罚策略:将数字字符串拆分为单个数字(如“2025”→“2”“0”“2”“5”),避免长数字占用独立Token,提升对数学推理任务的支持 。  
      
  • 中文优化特性
         
    • 压缩率上风:Qwen分  


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

曂沅仴駦

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表