在机器学习中有对于模型性能评估的指标
我们首先从混淆矩阵开始引入

混淆矩阵

如图，在二分类任务中，混淆矩阵通常由四部分组成。两行分别表示实际值的Positive和Negative，即二分类任务中的两个类；两列分别表示预测出来的Positive和Negative。主对角线上的两个部分即为模型分类正确的元素，而其余的部分对应着模型分类错误的元素。
当然在多分类任务中同样如此，若干行对应着多分类中的多个类别；而若干行对应着模型预测出来的多个类别，主对角线上的值为分类正确的值，其余为分类错误的值。

从二分类混淆矩阵中可以得到四个指标：

分类正确的：

TP（True Positive）表示预测结果为正类，且预测正确；即实际值和预测值都是正类
TN（True Negative）表示预测结果为负类，且预测正确；即实际值和预测值都是负类

分类错误的：

FP（False Positive）表示预测结果为正类，且预测错误；即实际值是负类，但是预测值是正类
FN（False Negative）表示预测结果为负类，且预测错误；即实际值是正类，但是预测值是负类

由这四个指标可以得到更高级的分类指标。

更多分类指标

首先显然可以得到总样例数= TP + FP + TN + FN

Accuracy（准确率）

准确率是最常用的分类性能指标。可以用来表示模型的精度，即模型识别正确的个数/样本的总个数。一般情况下，模型的精度越高，说明模型的效果越好。

Precision（精确率）

又称为查准率，表示在模型识别为正类且正确的样本中，预测为正类的样本所占的比例。
在偏向于不能错误把负类预测为正类的任务中，精确率越高越好。
例如在人脸识别支付的任务中，允许正类识别错误，但是不允许负类识别为正类。因此在这种情况下精确率越高越好。

Recall （召回率）

又称为查全率，召回率表现出在实际正样本中，分类器能召回多少，即能正确预测多少，故称为召回率。
在偏向于不能错误把正类预测为负类的任务中，精确率越高越好。
例如在地震预测中，可能允许误报，但是绝不允许把要发生的地震预测为不发生。因此这种情况下召回率越高越好。

可以看到以上两种指标适应于不同的任务。对于Precision和Recall，虽然从计算公式来看，并没有什么必然的相关性关系，但是，在大规模数据集合中，这2个指标往往是相互制约的。理想情况下做到两个指标都高当然最好，但一般情况下，Precision高，Recall就低，Recall高，Precision就低。所以在实际中常常需要根据具体情况做出取舍。
所以，很多时候我们需要综合权衡这2个指标，这就引出了一个新的指标F-score。这是综合考虑Precision和Recall的调和值。

F-Score

可以看到，公式中给在算调和平均数的时候给Precision和Recall赋予了的比例，因此

：则称为F1-Score，此时Precision和Recall的权重相当
：表示Precistion更重要些
：表示Recall更重要些
通常使用的还有F2-Score表示，即Recall更重要些

根据F-Score我们可以综合地评价模型在两方面的表现。

Chandery's Blog

机器学习中的几个常见的指标