用户国营 发表于 2025-4-5 04:48:28

五大中文大模子数据集与本领深度解析:DeepSeek、Qwen、腾讯元宝、文心一言、Kimi)





如整理有误,接待及时指正!
1. DeepSeek(深度求索)

1.1 数据集构成



[*] ​核心数据源:

[*]​数学与代码​(占比40%):

[*]​ProofPile:包含数学定理证明、奥赛试题的解题过程(LaTeX格式)
[*]​GitHub精选:过滤Star>100的代码堆栈,保存Python/Java/C++代码

[*]​通用文本​(35%):

[*]中文维基百科(2023更新版)+ 英文Books3语料库
[*]科技论文(arXiv中计算机、数学领域论文)

[*]​领域数据​(25%):

[*]法律文书(裁判文书网公开判决书)
[*]金融陈诉(A股/港股上市公司年报)


[*] ​数据量级:

[*]总规模:8万亿Token(DeepSeek-R1版本)
[*]代码数据:1.2万亿Token(Python占比60%)

1.2 处理技术



[*]​去重战略:

[*]基于MinHash的文档级去重(相似度>95%的文本抛弃)
[*]代码数据使用AST(抽象语法树)去重

[*]​质量过滤:

[*]数学数据保存完备解题步骤(删除仅含答案的样本)
[*]使用规则引擎过滤低质量代码(如注释率<10%的文件)

2. Qwen(通义千问,阿里云)

2.1 数据集构成



[*] ​核心数据源:

[*]​多语言混淆​(中文70%、英文20%、其他10%):

[*]中文:人民日报语料、网络小说、古汉语文献(四库全书精选)
[*]小语种:日韩语新闻、东南亚电商评论(Lazada/Shopee爬取)

[*]​对话数据​(15%):

[*]人工构造的指令-回答对(涵盖客服、教育场景)
[*]交际媒体对话(微博、知乎问答去敏处理)

[*]​代码数据​(10%):

[*]GitHub热门堆栈(Apache License 2.0协议项目)


[*] ​数据量级:

[*]总规模:3万亿Token(Qwen-7B版本)
[*]多模态数据:5亿图文对(来自电商平台商品形貌)

2.2 处理技术



[*]​对齐优化:

[*]代码数据格式同一(转换为函数级代码块+注释)
[*]古文数据添加现代汉语翻译对照

[*]​安全过滤:

[*]政治敏感词黑名单(覆盖2000+敏感实体)
[*]使用BERT-NSFW模子过滤色情暴力内容

3. 腾讯元宝(Tencent Yuanbao)

3.1 数据集构成



[*] ​核心数据源:

[*]​交际数据​(50%):

[*]微信/QQ群聊记录(匿名化处理,去除个人ID)
[*]公众号文章(财经、游戏、生存类垂直领域)

[*]​多模态数据​(30%):

[*]腾讯视频弹幕+字幕(覆盖影视、综艺、体育)
[*]全民K歌用户录音(语音转文本,标注情绪标签)

[*]​金融数据​(20%):

[*]沪深股市公告(2010-2023年布局化数据)
[*]基金研报(中信证券、中金公司等机构陈诉)


[*] ​数据量级:

[*]总规模:预估2.5万亿Token(非公开披露)
[*]音视频数据:1000万小时语音+500万条短视频

3.2 处理技术



[*]​隐私保护:

[*]使用正则表达式替换手机号/银行卡号(如138****5678)
[*]语音数据声纹脱敏(保存文本内容,抛弃音色特征)

[*]​领域增强:

[*]游戏术语标准化(如“打野”→《好汉联盟》术语库映射)
[*]构建金融实体知识库(股票代码→公司名称对照表)

4. 文心一言(ERNIE Bot,百度)

4.1 数据集构成



[*] ​核心数据源:

[*]​搜索增强数据​(40%):

[*]百度搜索日记(高频Query+点击网页择要)
[*]知道/贴吧优质问答(采纳数>100的答案)

[*]​知识图谱​(30%):

[*]百度百科(560万实体)+ 企业图谱(天眼查互助数据)
[*]医疗知识库(涵盖疾病、药品、诊疗方案)

[*]​多模态数据​(20%):

[*]百度舆图POI形貌(1亿地点图文信息)
[*]好看视频字幕(覆盖科普、生存本领类内容)


[*] ​数据量级:

[*]总规模:10万亿Token(ERNIE 4.0版本)
[*]知识三元组:100亿级(实体-关系-属性)

4.2 处理技术



[*]​知识注入:

[*]将百科实体与文本共现关系嵌入训练(如“故宫→北京”)
[*]医疗数据经三甲医院专家审核(标注可信度品级)

[*]​时效性更新:

[*]每日增量更新搜索热门(如新上市股票代码)
[*]使用时间衰减模子(2020年前数据权重低落)

5. Kimi(月之暗面)

5.1 数据集构成



[*] ​核心数据源:

[*]​长文本数据​(60%):

[*]中文网络小说(起点中文网百万字连载作品)
[*]学术论文(CNKI中国知网CS领域PDF解析)
[*]法律文书(10万份判决书,平均长度1.5万字)

[*]​布局化数据​(25%):

[*]上市公司财报(表格数据转Markdown格式)
[*]GitHub项目文档(README.md+API说明)

[*]​对话数据​(15%):

[*]模拟技术问答(Stack Overflow问题+人工扩展回答)


[*] ​数据量级:

[*]总规模:1.8万亿Token(Kimi-7B版本)
[*]单文档最长:200万字符(《红楼梦》全本+注释)

5.2 处理技术



[*]​长文本优化:

[*]分段训练战略(每4k Token设注意力缓存节点)
[*]使用RoPE位置编码扩展至200k上下文

[*]​表格处理:

[*]财报数据行列对齐(归并跨页表格的重复表头)
[*]使用正则抽取HTML表格转为Markdown

6. 关键指标对比表

特性DeepSeekQwen腾讯元宝文心一言Kimi​代码本领⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐​数学本领⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐​多模态支持文本图文​图文/音视频图文文本​上下文长度32k+8k-32k4k-16k4k-16k​200k+​中文特色优势代码解题古文翻译网络热梗实时搜索长文档解析​行业落地案例量化金融跨境电商微信生态营销智能交通法律文书分析 7. 开发者选型指南



[*]​数据透明度:Qwen > DeepSeek > 文心一言 > Kimi > 腾讯元宝
[*]​领域适配性:

[*]金融量化:​DeepSeek​(财报分析代码天生)
[*]医疗问答:​文心一言​(百度健康知识库支持)
[*]多语言客服:​Qwen​(支持东南亚小语种)
[*]游戏NPC对话:​腾讯元宝​(交际语料+情绪识别)
[*]合同审查:​Kimi​(长文本条款比对)


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 五大中文大模子数据集与本领深度解析:DeepSeek、Qwen、腾讯元宝、文心一言、Kimi)