机器学习中的几个常见的指标
在机器学习中有对于模型性能评估的指标
我们首先从混淆矩阵开始引入
混淆矩阵
如图,在二分类任务中,混淆矩阵通常由四部分组成。两行分别表示实际值的Positive和Negative,即二分类任务中的两个类;两列分别表示预测出来的Positive和Negative。主对角线上的两个部分即为模型分类正确的元素,而其余的部分对应着模型分类错误的元素。
当然在多分类任务中同样如此,若干行对应着多分类中的多个类别;而若干行对应着模型预测出来的多个类别,主对角线上的值为分类正确的值,其余为分类错误的值。
从二分类混淆矩阵中可以得到四个指标:
分类正确的:
- TP(True Positive) 表示预测结果为正类,且预测正确;即实际值和预测值都是正类
- TN(True Negative)表示预测结果为负类,且预测正确;即实际值和预测值都是负类
分类错误的:
- FP(False Positive) 表示预测结果为正类,且预测错误;即实际值是负类,但是预测值是正类
- FN(False Negative)表示预测结果为负类,且预测错误;即实际值是正类,但是预测值是负类
由这四个指标可以得到更高级的分类指标。
更多分类指标
首先显然可以得到总样例数= TP + FP + TN + FN
Accuracy(准确率)
准确率是最常用的分类性能指标。可以用来表示模型的精度,即模型识别正确的个数/样本的总个数。一般情况下,模型的精度越高,说明模型的效果越好。
Precision(精确率)
又称为查准率,表示在模型识别为正类且正确的样本中,预测为正类的样本所占的比例。
在偏向于不能错误把负类预测为正类的任务中,精确率越高越好。
例如在人脸识别支付的任务中,允许正类识别错误,但是不允许负类识别为正类。因此在这种情况下精确率越高越好。
Recall (召回率)
又称为查全率,召回率表现出在实际正样本中,分类器能召回多少,即能正确预测多少,故称为召回率。
在偏向于不能错误把正类预测为负类的任务中,精确率越高越好。
例如在地震预测中,可能允许误报,但是绝不允许把要发生的地震预测为不发生。因此这种情况下召回率越高越好。
可以看到以上两种指标适应于不同的任务。对于Precision和Recall,虽然从计算公式来看,并没有什么必然的相关性关系,但是,在大规模数据集合中,这2个指标往往是相互制约的。理想情况下做到两个指标都高当然最好,但一般情况下,Precision高,Recall就低,Recall高,Precision就低。所以在实际中常常需要根据具体情况做出取舍。
所以,很多时候我们需要综合权衡这2个指标,这就引出了一个新的指标F-score。这是综合考虑Precision和Recall的调和值。
F-Score
可以看到,公式中给在算调和平均数的时候给Precision和Recall赋予了
: 则称为F1-Score,此时Precision和Recall的权重相当 : 表示Precistion更重要些 : 表示Recall更重要些
通常使用的还有F2-Score表示,即Recall更重要些
根据F-Score我们可以综合地评价模型在两方面的表现。
- Title: 机器学习中的几个常见的指标
- Author: Chandery
- Created at : 2024-06-16 03:38:56
- Updated at : 2024-12-11 10:43:51
- Link: https://chandery.chat/2024/06/16/机器学习中的几个常见的指标/
- License: This work is licensed under CC BY-NC-SA 4.0.