分享
005-paper review: mixup: BEYOND EMPIRICAL RISK MINIMIZATION
输入“/”快速插入
005-paper review: mixup: BEYOND EMPIRICAL RISK MINIMIZATION
1.
ERM(经验风险最小化)、VRM
一般的神经网络的思路都是使其
在训练数据上的平均误差最小化
,称为ERM原则。但即使在存在强正则化的情况下,
ERM也使得大型神经网络记忆(而不是泛化)训练数据
。使用ERM训练的神经网络在对训练分布以外的实例进行评估时,其预测会发生巨大变化。这说明
ERM无法解释并提供与训练数据略有不同的测试分布的泛化
。
一种解决方法是选择与训练数据相似但不同的例子进行训练(data augmentation) ,这被称为
邻近风险最小化(VRM)
。虽然
数据增强始终会导致改进的泛化,但该过程依赖于数据集,需要使用专家知识。
此外,数据增强假设
附近的例子共享一个类
,并且
没有跨不同的类别建立关系
。
2.
Mixup数据增强
mixup数据增强与数据本身无关,通过
纳入特征向量的线性插值应该导致相关目标的线性插值的先验知识来扩展训练分布
:
3.
ERM、VRM、mixup的表示
3.1 ERM
在监督学习中,ERM最小化的是如下函数:
但分布
大多数情况下是未知的。所以我们希望用数据
通过经验分布近似
.
狄拉克函数
表示数据点的离散分布。所以
可以被改写为
上述公式效率很高,但是仅在有限的
个示例中监视
。实现上式的最小化最简单的方式就是记住数据,但这样会导致失去泛化性。
3.2 VRM
但实际上可以有很多种近似
的方法。如VRM使用训练样本
附近的
作为新数据,而类别不变:
进一步地,可以通过高斯邻近,相当于使用加性高斯噪声增强数据。
此时
改写为
3.3 mixup
其中
,
.
4.
WHY mixup?
mixup邻近分布可以理解为一种数据增强形式,它鼓励模型
在训练样本之间表现为线性
。这种线性操作在预测训练样本之外的数据时减少了不希望出现的振荡。此外,从
奥卡姆剃刀
的角度来看,线性是一个很好的归纳偏置。
5.
mixup原文的设计与我们的mixup training的区别
原文
对于两个特征向量
和对应的标签
,做线性插值:
以一个三分类的
为例,
,
,
,它的损失函数为
其中
并不是固定的,而是满足分布:
,
.
Ours