本文共 911 字,大约阅读时间需要 3 分钟。
非均衡分类问题是指在分类器训练时正例数目和反例数目不相等(相差很大)。该问题在错分正例和反例的代价不同时也存在。本文提供几种度量分类器性能的方法
1 预测准确率
预测准确率指的是预测正确的样本占所有测试样本的比率
2正确率与召回率
正确率指的是预测为正例且预测正确的样本占预测为正例的样本的比率
召回率指的是预测为正例且预测正确的样本占真正正例的样本的比率
3 ROC曲线
另一个用于度量分类中的非均衡性的工具是ROC曲线(ROC curve), ROC代表接收者操作特征(receiver operating characteristic),它最早在二战期间由电气工程师构建雷达系统时使用过。图7-3给出了一条ROC曲线的例子。
在图 7-3 的 ROC 曲线中,给出了两条线,一条虚线一条实线。图中的横轴是伪正例的比例(假阳率 =FP/(FP+TN) ),而纵轴是真正例的比例(真阳率 =TP/(TP+FN) )。 ROC 曲线给出的是当阈值变化时假阳率和真阳率的变化情况。左下角的点所对应的是将所有样例判为反例的情况,而右上角的点对应的则是将所有样例判为正例的情况。虚线给出的是随机猜测的结果曲线。 ROC 曲线不但可以用于比较分类器,还可以基于 成本效益 ( cost-versus-benefit )分析来做出决策。由于在不同的阈值下,不同的分类器的表现情况可能各不相同,因此以某种方式将它们组合起来或许会更有意义。如果只是简单地观察分类器的错误率,那么我们就难以得到这种更深入的洞察效果了。 在理想的情况下,最佳的分类器应该尽可能地处于左上角,这就意味着分类器在假阳率很低的同时获得了很高的真阳率。例如在垃圾邮件的过滤中,这就相当于过滤了所有的垃圾邮件,但没有将任何合法邮件误识为垃圾邮件而放入垃圾邮件的文件夹中。 对不同的 ROC 曲线进行比较的一个指标是 曲线下的面积 ( Area Unser the Curve , AUC )。 AUC 给出的是分类器的平均性能值,当然它并不能完全代替对整条曲线的观察。一个完美分类器的 AUC 为 1.0 ,而随机猜测的 AUC 则为 0.5 。