摘要

类不平衡数据，其中一些类包含比其他类多得多的样本，在现实世界的应用程序中无处不在。处理类不平衡的标准技术通常通过对重新加权损失或重新平衡数据进行训练来工作。

不幸的是，针对此类目标训练过度参数化的神经网络会导致少数类数据的快速记忆。为了避免这个陷阱，我们利用元学习，它同时使用“外环（outer-loop）”和“内环（inner-loop）”损失，每个损失都可以使用不同的策略进行平衡。我们在图像分类、信用卡欺诈检测、贷款违约预测和具有严重不平衡数据的面部识别任务上评估我们的方法 MetaBalance。我们发现 MetaBalance 优于旨在处理类不平衡的各种流行策略，尤其是在少数类样本很少的场景中。

2.1 LEARNING ON CLASS IMBALANCED DATA

处理类不平衡的现有方法可以大致分为三组：增加少数类样本数量的重采样方法、减少多数类样本的方法以及修改训练例程以将模型的重点转移到训练期间的少数样本。

过采样

侧重于从可用的不平衡数据中生成新的少数类样本。一种简单的方法是简单地从少数类中复制点，但是这不会产生关于少数类的新信息，并且已知会导致对过采样示例的严重过度拟合。为了解决这个问题，Chawla 等人。 (2002) 提出了 SMOTE，它通过在少数类别的现有观测值之间进行线性插值来生成独特的少数样本。对 SMOTE 进行了一些改进，目的是生成额外的训练数据，从而在训练后产生更好的决策边界（Han et al., 2005; Nguyen et al., 2011; He et al., 2008）。例如，SVMSmote 沿支持向量机找到的边界生成新的少数示例（Han et al., 2005）。 SMOTE 及其修改适用于表格数据，而不适用于图像等高维数据。然而，一些旨在防止图像过度拟合的强大数据增强技术以类似的方式运行。例如，mixup 通过对数据集中的图像进行凸组合来生成新图像（Zhang 等人，2017 年），而 CutMix 通过从一张图像中剪切一个补丁并将其插入另一个图像来混合两张图像（Y un 等人，2019 年））。这两种方法都通过对混合图像的标签进行加权平均来为新样本生成标签。 SMOTE 与 mixup 密切相关，主要区别在于 SMOTE 只在少数类中进行混合，而 mixup 将所有类之间的样本混合在一起。金等人。（2020）建议通过应用对抗性扰动将多数样本转换为少数样本，并以此利用多数信息的多样性。最后，越来越多的工作提出 GAN 从少数类中生成真实样本，但训练 GAN 很困难，而且这些模型因在不同数据集上表现不佳或记忆其训练数据而臭名昭著（Shamsolmoali 等人，2020；Deepshikha & Naman，2020；Ali-Gombe & Elyan，2019；Mullick 等人，2019）。

欠采样

是处理类不平衡的另一种常用技术。与添加少数类数据的过采样相比，欠采样从多数样本中移除以形成平衡的数据集。随机删除数据会导致大多数类中的关键数据点丢失，一些作品提出了巧妙选择样本的方法，这些样本可以在不丢失关于多数类的重要信息的情况下被删除（Lin 等人，2017b；Wilson，1972；Tomek 等人。 , 1976)。 Wilson (1972) 提出了一种编辑最近邻算法 (ENN)，其中删除了与 KNN 算法的预测不一致的多数类数据点。另一种方法是聚类质心，通过用 k-means 算法发现的多数类的聚类替换它们各自的质心来进行欠采样（Lin 等人，2017b）。当数据非常高维时，这些方法会出现问题，因为最近邻分类器在这种情况下往往会变得无信息（例如，'2 距离通常不是衡量图像之间相似性的好方法）。此外，欠采样会阻止用户利用大量的多数类数据来学习更好的特征表示。

分类器级方法

修改训练例程以强调少数类样本。此类别中存在几种不同的技术。例如，成本敏感学习通过重新加权损失或改变学习率来改变少数类点的损失（Elkan，2001；Kukar 等人，1998；Cui 等人，2019；Lin 等人）。等人，2017a）。直观地说，对训练样本应用不同的权重类似于以适当的频率对这些数据点进行过采样。其他分类器级别的方法包括正则化器，它们可以促进少数类数据的较大边际或对在小型平衡数据集上测量的“平衡性能”施加限制（Sangalli 等人，2021；Huang 等人，2016；Li 等人。 , 2019)。最后，还有一些后处理方法旨在重新调整分类器输出的分数以实现更好的性能（Richard & Lippmann, 1991; Chan et al., 2019）。