机器学习中的几个常见的指标

机器学习中的几个常见的指标

Chandery Lv1

在机器学习中有对于模型性能评估的指标
我们首先从混淆矩阵开始引入

混淆矩阵

混淆矩阵
如图,在二分类任务中,混淆矩阵通常由四部分组成。两行分别表示实际值的Positive和Negative,即二分类任务中的两个类;两列分别表示预测出来的Positive和Negative。主对角线上的两个部分即为模型分类正确的元素,而其余的部分对应着模型分类错误的元素。
当然在多分类任务中同样如此,若干行对应着多分类中的多个类别;而若干行对应着模型预测出来的多个类别,主对角线上的值为分类正确的值,其余为分类错误的值。

从二分类混淆矩阵中可以得到四个指标:

分类正确的:

  • TP(True Positive) 表示预测结果为正类,且预测正确;即实际值和预测值都是正类
  • TN(True Negative)表示预测结果为负类,且预测正确;即实际值和预测值都是负类

分类错误的:

  • FP(False Positive) 表示预测结果为正类,且预测错误;即实际值是负类,但是预测值是正类
  • FN(False Negative)表示预测结果为负类,且预测错误;即实际值是正类,但是预测值是负类

由这四个指标可以得到更高级的分类指标。

更多分类指标

首先显然可以得到总样例数= TP + FP + TN + FN

Accuracy(准确率)

准确率是最常用的分类性能指标。可以用来表示模型的精度,即模型识别正确的个数/样本的总个数。一般情况下,模型的精度越高,说明模型的效果越好。

Precision(精确率)

又称为查准率,表示在模型识别为正类且正确的样本中,预测为正类的样本所占的比例。
在偏向于不能错误把负类预测为正类的任务中,精确率越高越好。
例如在人脸识别支付的任务中,允许正类识别错误,但是不允许负类识别为正类。因此在这种情况下精确率越高越好。

Recall (召回率)

又称为查全率,召回率表现出在实际正样本中,分类器能召回多少,即能正确预测多少,故称为召回率。
在偏向于不能错误把正类预测为负类的任务中,精确率越高越好。
例如在地震预测中,可能允许误报,但是绝不允许把要发生的地震预测为不发生。因此这种情况下召回率越高越好。

可以看到以上两种指标适应于不同的任务。对于Precision和Recall,虽然从计算公式来看,并没有什么必然的相关性关系,但是,在大规模数据集合中,这2个指标往往是相互制约的。理想情况下做到两个指标都高当然最好,但一般情况下,Precision高,Recall就低,Recall高,Precision就低。所以在实际中常常需要根据具体情况做出取舍。
所以,很多时候我们需要综合权衡这2个指标,这就引出了一个新的指标F-score。这是综合考虑Precision和Recall的调和值。

F-Score


可以看到,公式中给在算调和平均数的时候给Precision和Recall赋予了的比例,因此

  • : 则称为F1-Score,此时Precision和Recall的权重相当
  • : 表示Precistion更重要些
  • : 表示Recall更重要些
    通常使用的还有F2-Score表示,即Recall更重要些

根据F-Score我们可以综合地评价模型在两方面的表现。

  • Title: 机器学习中的几个常见的指标
  • Author: Chandery
  • Created at : 2024-06-16 11:38:56
  • Updated at : 2024-06-16 18:53:30
  • Link: https://chandery.chat/2024/06/16/机器学习中的几个常见的指标/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments