分类题目常用评估指标

打印 上一主题 下一主题

主题 1008|帖子 1008|积分 3024

目次
一、二分类
1、准确率( Accuracy) 
2、准确率( Precision)
3、召回率 (Recall)
4、F1-Score
5、ROC 曲线
二、多分类
1、准确率( Accuracy) 
2、准确率( Precision)and  召回率 (Recall)
3、F1-Score
4、混淆矩阵


一、二分类

对于二分类题目, 它的样本只有正样本和负样本两类。 以垃圾邮件分类为例,正样本是垃圾邮件, 负样本是正常邮件。
   TP(True Positive):正样本被分类器判断为正样本的数量
FN(False Negative):正样本被判断为负样本
  TN(True Negative):负样本被分类器判断为负样本的数量
FP( False Positive):负样本被判断为正样本的数量
  1、准确率( Accuracy) 

准确率就是模型预测正确的样本数量占总样本数量的比例。

缺点:但是对于数据集不平衡的情况, 准确率就不具有代表性了。 比如: 有的种别样本多, 有的种别样本占比小。 若样本多的种别辨认率很高, 样本少的种别都辨认错误, 此时用准确率来评估模型的好坏显然不是很好的选择。
2、准确率( Precision)

被分类器判断为正样本的样本中真正的正样本所占的比例

3、召回率 (Recall)

全部正样本中被分类器判断为正样本的比例

4、F1-Score

准确率( P) 与召回率( R) 的调和平均

Precision 和 Recall 是一对相互矛盾的量, 当 P 高时, R 往往相对较低,当 R 高时, P 往往相对较低, 以是为了更好的评价分类器的性能, 一样平常利用F1-Score 作为评价尺度来衡量分类器的综合性能。
5、ROC 曲线

真阳率TPR即为召回率,假阳率FPR即为准确率
FPR 作为横坐标, TPR 作为纵坐标得到 ROC 曲线。 当假阳率增长时真阳率也会增长, 因此, 它是一条向上增长的曲线。 一个好的分类器应该包管真阳率高而假阳率低, 以是 ROC 曲线越靠近左上角, 该分类器的性能越好。
 
二、多分类

1、准确率( Accuracy) 

同上
2、准确率( Precision)and  召回率 (Recall)

需要分别盘算每个种别的准确率和召回率,以及它们的平均值。
3、F1-Score

同样需要分别盘算每个种别的 F1 分数, 及其平均值
4、混淆矩阵

对于 k 分类题目, 混淆矩阵为 k× k 的矩阵, 它的元素 
 表现第 i 类样本被分类器判断为第 j 类的数量。 假如全部样本都被正确分类, 则该矩阵为对角阵, 因此, 对角线上的值越大, 分类器的准确率越高。
 

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

缠丝猫

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表