首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
SAAS
ToB门户
了解全球最新的ToB事件
论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
微博
Follow
记录
Doing
博客
Blog
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
排行榜
Ranklist
相册
Album
应用中心
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
数据库
›
分布式数据库
›
【深度学习】数据集的划分比例到底是选择811还是712? ...
返回列表
发新帖
【深度学习】数据集的划分比例到底是选择811还是712?
[复制链接]
发表于 2025-9-8 16:35:15
|
显示全部楼层
|
阅读模式
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
1 引入
在机器学习中,将数据集划分为训练集(Training Set)、验证集(Validation Set)和测试集(Test Set)是非常标准的步调。这三个集合各有其用途:
训练集 (Training Set)
:用于模型学习参数。训练集越大,理论上模型能学到更多数据模式,但过大可能导致过拟合(如果模型过于复杂)。
验证集 (Validation Set)
:用于超参数调优、模型选择、提前停止等。不参与模型参数的训练,但用于模型开发过程中的评估。验证集巨细影响调优结果的可靠性。
测试集 (Test Set)
:用于模型开发和调优完成后,对终极模型的
终极、无偏见
性能
评估。测试集巨细影响终极评估结果的可靠性。
现在来看 811 和 712 的区别:
811 划分
:
训练集:80%
验证集:10%
测试集:10%
712 划分
:
训练集:70%
验证集:10%
测试集:20%
2 主要区别和考量
训练数据量:
811:
训练集占 80%,提供了更多的样本供模型学习。对于数据量不是特别巨大的情况,更多的训练数据通常能资助模型学习得更好。
712:
训练集占 70%,比 811 少了 10%。这意味着模型用于学习的数据底子更小。
验证数据量:
811 和 712 的验证集比例相同 (10%)
。在这个比较中,验证集的巨细不是主要的区别点。两者提供相同量的样本用于超参数调优和模型选择。
测试数据量和终极评估的可靠性:
811:
测试集占 10%。测试集较小,终极的模型
性能
评估结果的随机性(方差)可能相对较高。如果测试集中的样本偶然性较强,终极报告的
性能
指标可能不够稳定可靠。
712:
测试集占 20%。测试集更大,能提供更稳定、更可靠的终极模型性能评估结果。如果你必要对模型的泛化能力有一个更具信心的估计,大概数据集本身存在较大的种别不平衡或有数情况,更大的测试聚会会议更有优势,因为它更有可能包含这些情况,从而提供更全面的评估。
总结哪个更好?
同样,没有绝对的“哪个更好”,选择取决于你在
训练效率
和
终极评估可靠性
之间的权衡:
倾向于 811 划分的情况:
数据集规模相对较小或中等,希望最大化用于模型训练的数据量,以进步模型的潜力。
对终极性能评估结果的准确度和可靠性要求不是极致高。
倾向于 712 划分的情况:
数据集规模较大,纵然淘汰 10% 的训练数据(从 80% 到 70%),训练集仍然充足巨大,足以训练出高性能的模型。
对终极模型性能的评估结果非常重视,必要一个更可靠、更具统计意义的测试集来验证模型的泛化能力(例如,用于学术论文、产物上线前的严谨评估等)。
3 总结
简朴来说:
811
更侧重于
最大化训练数据
,可能有助于提拔模型的理论性能上限(尤其在数据量有限时)。
712
更侧重于
进步终极评估的可靠性
,让你对模型在真实世界数据上的表现更有信心
数据集多无脑选712,数据集没那么多811就完事呐!一般大多数都选择811举行改进,毕竟数据集也没那么多(大概是小于1w张?)。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告
回复
使用道具
举报
返回列表
徐锦洪
+ 我要发帖
×
登录参与点评抽奖,加入IT实名职场社区
去登录
微信订阅号
微信服务号
微信客服(加群)
H5
小程序
快速回复
返回顶部
返回列表