005-paper review: mixup: BEYOND EMPIRICAL RISK MINIMIZATION

ERM(经验风险最小化)、VRM

一般的神经网络的思路都是使其在训练数据上的平均误差最小化，称为ERM原则。但即使在存在强正则化的情况下，ERM也使得大型神经网络记忆（而不是泛化）训练数据。使用ERM训练的神经网络在对训练分布以外的实例进行评估时，其预测会发生巨大变化。这说明ERM无法解释并提供与训练数据略有不同的测试分布的泛化。

一种解决方法是选择与训练数据相似但不同的例子进行训练（data augmentation），这被称为邻近风险最小化（VRM）。虽然数据增强始终会导致改进的泛化，但该过程依赖于数据集，需要使用专家知识。此外，数据增强假设附近的例子共享一个类，并且没有跨不同的类别建立关系。

Mixup数据增强

mixup数据增强与数据本身无关，通过纳入特征向量的线性插值应该导致相关目标的线性插值的先验知识来扩展训练分布：

ERM、VRM、mixup的表示

3.1 ERM

在监督学习中，ERM最小化的是如下函数：

但分布

大多数情况下是未知的。所以我们希望用数据

通过经验分布近似

005-paper review: mixup: BEYOND EMPIRICAL RISK MINIMIZATION​