OVR,也称为 One-vs-All (OVA),是一种将多类分类问题转化为多个二分类问题的方法。
对于有 个类别的分类问题,OVR 会训练 个二分类器。每个分类器负责区分一个类别和其余所有类别。
训练阶段:
对于每个类别 (),训练一个二分类器 。
分类器 的目标是将类别 的样本标记为正类,其余类别的样本标记为负类。
预测阶段:
对于一个新的样本,使用所有 个分类器进行预测。
每个分类器 会输出一个置信度分数(如概率或决策函数值)。
最终,选择置信度分数最高的类别作为预测结果。
简单直观,易于实现。
只需要训练 个分类器,计算量相对较小。
如果类别数量 很大,可能会导致类别不平衡问题,因为每个分类器的负类样本数量远多于正类样本。
分类器之间的决策边界可能不够精确。
OVO 是另一种将多类分类问题转化为多个二分类问题的方法。
对于有 个类别的分类问题,OVO 会训练 个二分类器。每个分类器负责区分一对类别。
训练阶段:
对于每一对类别 (),训练一个二分类器 。
分类器 的目标是将类别 的样本标记为正类,类别 的样本标记为负类。
预测阶段:
对于一个新的样本,使用所有 个分类器进行预测。
每个分类器 会投票给其中一个类别。
最终,选择得票最多的类别作为预测结果。
每个分类器只关注两个类别,避免了类别不平衡问题。
决策边界通常更加精确。
需要训练的分类器数量较多,计算量较大,尤其是当类别数量 很大时。
预测阶段的计算复杂度较高,因为需要运行大量的分类器。
特性 | OVR (One-vs-Rest) | OVO (One-vs-One) |
---|---|---|
分类器数量 | ||
训练复杂度 | 较低 | 较高 |
预测复杂度 | 较低 | 较高 |
类别不平衡问题 | 可能存在 | 较少存在 |
决策边界精确度 | 一般 | 较高 |
选择 OVR:当类别数量 较大时,OVR 的计算量较小,适合处理大规模数据集。
选择 OVO:当类别数量 较小时,OVO 可以提供更精确的决策边界,适合处理小规模数据集。