二分类问题常见的评价指标

栏目: 数据库 · 发布时间: 5年前

内容简介:准确率是我们常见的评价指标之一,一般定义是,分类正确的样本数占总样本的比例数。但是准确率在数据不均衡的数据集上会缺少一定的说服力,比如一个数据集,有990正样本,10个负样本,现在模型把样本全部都预测成正样本,那么我们说模型的准确率是99%,这个从计算上看是没问题,但是当样本不均衡时,光使用准确率来评价一个模型的好坏是不够的。

一、准确率

准确率是我们常见的评价指标之一,一般定义是,分类正确的样本数占总样本的比例数。

二分类问题常见的评价指标

但是准确率在数据不均衡的数据集上会缺少一定的说服力,比如一个数据集,有990正样本,10个负样本,现在模型把样本全部都预测成正样本,那么我们说模型的准确率是99%,这个从计算上看是没问题,但是当样本不均衡时,光使用准确率来评价一个模型的好坏是不够的。

二、精准率和召回率

二分类问题的预测结果可以根据情况分成以下四类:

真正例(True Positive):预测值为1,真实值为1

假正例(False Positive):预测值为1,真实值为0

真反例(True Negative):预测值为0,真实值为0

假反例(False Negative):预测值为0,真实值为1

构造成结果的混淆矩阵

二分类问题常见的评价指标

精准率又称查准率:

二分类问题常见的评价指标

召回率又称查全率:

二分类问题常见的评价指标

精准率可以解释为,预测为正例的样本中,有多少是真的正例

召回率可以解释为,真实的正例的样本中,有多少被预测出来

F1:精准率和召回率的调和平均

二分类问题常见的评价指标

三、AUC

AUC是另一种评价二分类算法的指标,被定义为 ROC 曲线下的面积。那什么是ROC曲线呢?

二分类问题常见的评价指标

ROC曲线的坐标,纵坐标为真正例率(True Positive Rate,TPR),横坐标为假正例率(False Positive Rate,FPR)

具体定义如下:

二分类问题常见的评价指标

根据模型在ROC坐标上的位置,可以判断模型的性能

二分类问题常见的评价指标

模型1

二分类问题常见的评价指标

模型2

二分类问题常见的评价指标

横纵坐标

二分类问题常见的评价指标

二分类问题常见的评价指标

ROC坐标上的四个点

(0,1):所有样本分类正确

(1,0):所有样本分类错误

(0,0):所以样本都分类为负

(1:1):所以样本都分类为正

由上图可以看出模型2要好于模型1

怎么画出AUC曲线呢,首先按照预测值进行排序

二分类问题常见的评价指标

按照预测值大小,依次作为阈值,求解FP rate和TP rate

二分类问题常见的评价指标

按照上图的信息可以画出曲线

二分类问题常见的评价指标

曲线下的面积被称为AOC

AOC的意义:衡量正样本排在负样本前面的能力,这里的能力更具体一点就是出现的概率。与域值的选取没有关系。

四、混淆矩阵

对于多分类的相关问题,常用的评价标准是混淆矩阵

如果分成n个类别的话,混淆矩阵的形式是一个 二分类问题常见的评价指标 的一个矩阵,具体的形式如下

二分类问题常见的评价指标

上图中每一列代表预测的类别,每一行代表真实的类别的归属,第二行cat的总数量为8,表示类cat总共有8个样本,其中3个分类正确,3个被错误的分到了dog,2个被错误的分到了robbit。

如果计算cat的准确率计算公式如下

二分类问题常见的评价指标

二分类问题常见的评价指标

参考文献:

1、李航《统计学习方法》清华大学出版社

2、周志华《机器学习》 清华大学出版社

3、Confusion matrix

4、sklearn.metrics.confusion_matrix - scikit-learn 0.20.2 documentation

原文来自学员知乎作业

https://zhuanlan.zhihu.com/p/55324860


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Java5.0Tiger程序高手秘笈

Java5.0Tiger程序高手秘笈

BrettMclaughlin / 东南大学出版社 / 2005-10 / 28.00元

代号为 “Tiger”的下一个 Java 版本,不只是个小改动版。在语言核心中有超过 100 项以上的变动,同时有大量的对 library 与 API 所做的加强,让开发者取得许多新的功能、工具与技术。但在如此多的变化下,应该从何处开始着手?也许可以从既长又无趣的语言规范说明书开始看起;或等待最少 500 页的概念与理论巨著出版;甚至还可以直接把玩新的 JDK 看看能够有什么发现;或者借由《Jav......一起来看看 《Java5.0Tiger程序高手秘笈》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

html转js在线工具
html转js在线工具

html转js在线工具

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具