非均衡分类问题-白红宇

非均衡分类问题

阅读量：4211 次

发布时间：2019-05-26

本文共 911 字，大约阅读时间需要 3 分钟。

非均衡分类问题是指在分类器训练时正例数目和反例数目不相等（相差很大）。该问题在错分正例和反例的代价不同时也存在。本文提供几种度量分类器性能的方法

1 预测准确率

预测准确率指的是预测正确的样本占所有测试样本的比率

2正确率与召回率

正确率指的是预测为正例且预测正确的样本占预测为正例的样本的比率

召回率指的是预测为正例且预测正确的样本占真正正例的样本的比率

3 ROC曲线

另一个用于度量分类中的非均衡性的工具是ROC曲线（ROC curve）， ROC代表接收者操作特

征（receiver operating characteristic），它最早在二战期间由电气工程师构建雷达系统时使用过。

图7-3给出了一条ROC曲线的例子。

在图

7-3

的

ROC

曲线中，给出了两条线，一条虚线一条实线。图中的横轴是伪正例的比例（假

阳率

=FP/(FP+TN)

），而纵轴是真正例的比例（真阳率

=TP/(TP+FN)

）。

ROC

曲线给出的是当阈值

变化时假阳率和真阳率的变化情况。左下角的点所对应的是将所有样例判为反例的情况，而右上

角的点对应的则是将所有样例判为正例的情况。虚线给出的是随机猜测的结果曲线。

ROC

曲线不但可以用于比较分类器，还可以基于

成本效益

（

cost-versus-benefit

）分析来做出

决策。由于在不同的阈值下，不同的分类器的表现情况可能各不相同，因此以某种方式将它们组

合起来或许会更有意义。如果只是简单地观察分类器的错误率，那么我们就难以得到这种更深入

的洞察效果了。

在理想的情况下，最佳的分类器应该尽可能地处于左上角，这就意味着分类器在假阳率很低

的同时获得了很高的真阳率。例如在垃圾邮件的过滤中，这就相当于过滤了所有的垃圾邮件，但

没有将任何合法邮件误识为垃圾邮件而放入垃圾邮件的文件夹中。

对不同的

ROC

曲线进行比较的一个指标是

曲线下的面积

（

Area Unser the Curve

，

AUC

）。

AUC

给出的是分类器的平均性能值，当然它并不能完全代替对整条曲线的观察。一个完美分类器的

AUC

为

1.0

，而随机猜测的

AUC

则为

0.5

。

你可能感兴趣的文章

Oracle Golden Gate 系列七 -- 配置 GG Manager process

查看>>

ORA-00600:[32695], [hash aggregation can't be done] 解决方法

查看>>

Oracle SQL中使用正则表达式执行报ORA-07445 [_intel_fast_memcpy.A()+10] 错误

查看>>

Oracle TABLE ACCESS BY INDEX ROWID 说明

查看>>

ORA-00600 [kmgs_parameter_update_timeout_1], [27072] ORA-27072 解决方法

查看>>

Oracle 11g alert log 新增消息 opiodr aborting process unknown ospid (1951) as a result of ORA-28 说明

查看>>

Linux Context , Interrupts 和 Context Switching 说明

查看>>

《Oracle数据库问题解决方案和故障排除手册》终于发售了

查看>>

Oracle alert log ALTER SYSTEM SET service_names='','SYS$SYS.KUPC$C_...' SCOPE=MEMORY SID='' 说明

查看>>

Oracle latch:library cache 导致数据库挂起故障

查看>>

Openfiler 配置 NFS 示例

查看>>

Oracle 11.2.0.1 RAC GRID 无法启动： Oracle High Availability Services startup failed

查看>>

Oracle 18c 单实例安装手册详细截图版

查看>>

Oracle Linux 6.1 + Oracle 11.2.0.1 RAC + RAW 安装文档

查看>>

Oracle 11g 新特性 -- Online Patching （Hot Patching 热补丁）说明

查看>>

Oracle 11g 新特性 -- ASM 增强说明

查看>>

Oracle 11g 新特性 -- Database Replay （重演）说明

查看>>

Oracle 11g 新特性 -- 自动诊断资料档案库(ADR) 说明

查看>>

Oracle 11g 新特性 -- RMAN Data Recovery Advisor(DRA) 说明

查看>>

CSDN博客之星投票说明

查看>>