论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
五大中文大模子数据集与本领深度解析:DeepSeek、Qwen、 ...
五大中文大模子数据集与本领深度解析:DeepSeek、Qwen、腾讯元宝、文心一言 ...
用户国营
论坛元老
|
2025-4-5 04:48:28
|
显示全部楼层
|
阅读模式
楼主
主题
1722
|
帖子
1722
|
积分
5166
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
如整理有误,接待及时指正!
1. DeepSeek(深度求索)
1.1 数据集构成
核心数据源
:
数学与代码
(占比40%):
ProofPile
:包含数学定理证明、奥赛试题的解题过程(LaTeX格式)
GitHub精选
:过滤Star>100的代码堆栈,保存Python/Java/C++代码
通用文本
(35%):
中文维基百科(2023更新版)+ 英文Books3语料库
科技论文(arXiv中计算机、数学领域论文)
领域数据
(25%):
法律文书(裁判文书网公开判决书)
金融陈诉(A股/港股上市公司年报)
数据量级
:
总规模:8万亿Token(DeepSeek-R1版本)
代码数据:1.2万亿Token(Python占比60%)
1.2 处理技术
去重战略
:
基于MinHash的文档级去重(相似度>95%的文本抛弃)
代码数据使用AST(抽象语法树)去重
质量过滤
:
数学数据保存完备解题步骤(删除仅含答案的样本)
使用规则引擎过滤低质量代码(如注释率<10%的文件)
2. Qwen(通义千问,阿里云)
2.1 数据集构成
核心数据源
:
多语言混淆
(中文70%、英文20%、其他10%):
中文:人民日报语料、网络小说、古汉语文献(四库全书精选)
小语种:日韩语新闻、东南亚电商评论(Lazada/Shopee爬取)
对话数据
(15%):
人工构造的指令-回答对(涵盖客服、教育场景)
交际媒体对话(微博、知乎问答去敏处理)
代码数据
(10%):
GitHub热门堆栈(Apache License 2.0协议项目)
数据量级
:
总规模:3万亿Token(Qwen-7B版本)
多模态数据:5亿图文对(来自电商平台商品形貌)
2.2 处理技术
对齐优化
:
代码数据格式同一(转换为函数级代码块+注释)
古文数据添加现代汉语翻译对照
安全过滤
:
政治敏感词黑名单(覆盖2000+敏感实体)
使用BERT-NSFW模子过滤色情暴力内容
3. 腾讯元宝(Tencent Yuanbao)
3.1 数据集构成
核心数据源
:
交际数据
(50%):
微信/QQ群聊记录(匿名化处理,去除个人ID)
公众号文章(财经、游戏、生存类垂直领域)
多模态数据
(30%):
腾讯视频弹幕+字幕(覆盖影视、综艺、体育)
全民K歌用户录音(语音转文本,标注情绪标签)
金融数据
(20%):
沪深股市公告(2010-2023年布局化数据)
基金研报(中信证券、中金公司等机构陈诉)
数据量级
:
总规模:预估2.5万亿Token(非公开披露)
音视频数据:1000万小时语音+500万条短视频
3.2 处理技术
隐私保护
:
使用正则表达式替换手机号/银行卡号(如138****5678)
语音数据声纹脱敏(保存文本内容,抛弃音色特征)
领域增强
:
游戏术语标准化(如“打野”→《好汉联盟》术语库映射)
构建金融实体知识库(股票代码→公司名称对照表)
4. 文心一言(ERNIE Bot,百度)
4.1 数据集构成
核心数据源
:
搜索增强数据
(40%):
百度搜索日记(高频Query+点击网页择要)
知道/贴吧优质问答(采纳数>100的答案)
知识图谱
(30%):
百度百科(560万实体)+ 企业图谱(天眼查互助数据)
医疗知识库(涵盖疾病、药品、诊疗方案)
多模态数据
(20%):
百度舆图POI形貌(1亿地点图文信息)
好看视频字幕(覆盖科普、生存本领类内容)
数据量级
:
总规模:10万亿Token(ERNIE 4.0版本)
知识三元组:100亿级(实体-关系-属性)
4.2 处理技术
知识注入
:
将百科实体与文本共现关系嵌入训练(如“故宫→北京”)
医疗数据经三甲医院专家审核(标注可信度品级)
时效性更新
:
每日增量更新搜索热门(如新上市股票代码)
使用时间衰减模子(2020年前数据权重低落)
5. Kimi(月之暗面)
5.1 数据集构成
核心数据源
:
长文本数据
(60%):
中文网络小说(起点中文网百万字连载作品)
学术论文(CNKI中国知网CS领域PDF解析)
法律文书(10万份判决书,平均长度1.5万字)
布局化数据
(25%):
上市公司财报(表格数据转Markdown格式)
GitHub项目文档(README.md+API说明)
对话数据
(15%):
模拟技术问答(Stack Overflow问题+人工扩展回答)
数据量级
:
总规模:1.8万亿Token(Kimi-7B版本)
单文档最长:200万字符(《红楼梦》全本+注释)
5.2 处理技术
长文本优化
:
分段训练战略(每4k Token设注意力缓存节点)
使用RoPE位置编码扩展至200k上下文
表格处理
:
财报数据行列对齐(归并跨页表格的重复表头)
使用正则抽取HTML表格转为Markdown
6. 关键指标对比表
特性DeepSeekQwen腾讯元宝文心一言Kimi
代码本领
⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
数学本领
⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
多模态支持
文本图文
图文/音视频
图文文本
上下文长度
32k+8k-32k4k-16k4k-16k
200k+
中文特色优势
代码解题古文翻译网络热梗实时搜索长文档解析
行业落地案例
量化金融跨境电商微信生态营销智能交通法律文书分析
7. 开发者选型指南
数据透明度
:Qwen > DeepSeek > 文心一言 > Kimi > 腾讯元宝
领域适配性
:
金融量化:
DeepSeek
(财报分析代码天生)
医疗问答:
文心一言
(百度健康知识库支持)
多语言客服:
Qwen
(支持东南亚小语种)
游戏NPC对话:
腾讯元宝
(交际语料+情绪识别)
合同审查:
Kimi
(长文本条款比对)
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
用户国营
论坛元老
这个人很懒什么都没写!
楼主热帖
Beta 阶段事后分析
iOS全埋点解决方案-APP和H5打通 ...
Android studio实现网上订餐app
Ubuntu22.04+ROS2中实现Moveit2控制gaz ...
完整版彻底卸载SQL Server2019
mysql主从搭建
分布式锁
复杂「场景」数据导入导出
【云原生】-如何搭建配置Docker私有仓 ...
关键容灾技能比较
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
备份
快速回复
返回顶部
返回列表