跳到主要内容

2.1.2 评估指标介绍

对于分类问题,可将真实类别和预测类别分为以下四种情况。

预测结果
正例(当前类别)反例(其他类别)
真实情况正例(当前类别)真正例 TP(True Positive)假反例 FN(False Negative)
反例(其他类别)假正例 FP(False Positive)真反例 TN(True Negative)

即,预测正确为真,预测错误为假。

通常情况下,分类任务的模型输出结果是,样本属于当前类别的概率,是连续的数值,但我们会认为设定一个阈值,根据阈值将模型输出的概率解析为离散的分类。

2.1.2.1 F1-score

F1-score 是一种针对分类任务的性能指标,反应了模型对正例(当前类别)的预测准确度。

  • 查准率 P(Precision)

    P=TPTP+FPP=\frac{TP}{TP+FP}

    表示预测正例中预测正确的比例。

  • 查全率 R(Recall)

    R=TPTP+FNR=\frac{TP}{TP+FN}

    表示真实正例中预测正确的比例。

  • F1-score

    F1=2PRP+R=2TP2TP+FN+FPF1=\frac{2PR}{P+R}=\frac{2TP}{2TP+FN+FP}

2.1.2.2 AUC

  • 真正例率 TPR(True Positive Rate)

    TPR=TPTP+FNTPR=\frac{TP}{TP+FN}

    表示真实正例中预测正例的比例。

  • 假正例率 FPR(False Positive Rate)

    FPR=FPTN+FPFPR=\frac{FP}{TN+FP}

    表示真实反例中预测正例的比例。

  • ROC 曲线(Receiver Operating Characteristic Curve)

    由于分类任务通常需要设定一个阈值,那么不同的阈值将得到不同的真正例率 TPR 和假正例率 FPR,将这些值绘制到横坐标为假正例率、纵坐标为真正例率的坐标轴上,即可得到 ROC 曲线(通常情况下,随着阈值的变化,真正例率和假正例率的变化是平滑的,因此这些坐标能自然的练成一条曲线)

    当一个模型的 ROC 曲线完全在另一个模型的 ROC 曲线上方,则可断言前者的性能优于后者。

    ROC 曲线示意图:

  • AUC(Area Under Curve)

    即 ROC 曲线与横坐标轴围成的面积。通常认为 AUC 越大,模型的性能越好。

2.1.2.3 RMSE & MSE

均方根误差 RMSE(Root Mean Squared Error)均方误差 MSE(Mean Squared Error) 都是针对回归模型的。

均方误差 MSE:

MSE=1mi=1m(yiyi)2MSE=\frac{1}{m} \sum_{i=1}^{m}{(y_i-y'_i)^2}

均方根误差 RMSE:

RMSE=MSE=1mi=1m(yiyi)2RMSE=\sqrt{MSE}=\sqrt{\frac{1}{m} \sum_{i=1}^{m}{(y_i-y'_i)^2}}

其中 mm 表示测试样例个数,yiy_i 表示第 ii 个实例的真实目标值,yiy'_i 表示第 ii 个实例的模型预测值。