分享
007-Experiments
输入“/”快速插入
007-Experiments
飞书用户500
飞书用户2707
飞书用户9714
2023年5月8日创建
1.
Models
2.
SID Exps
Data: Voxceleb1
Metric: Top-k
Acc
, ROC
3.
Explain
1
实验分为六个模型和三组测试:
•
第一组模型是clean data训练得到的CE和BCE。
•
第二组是高斯噪声数据增强训练的CE和BCE。
•
第三组是规范的mixup CE,它的input data 和 label都进行mix,系数lambda服从beta分布。
•
第四组是我们的mixup BCE,它只在input data处进行mix,且mix有两个系数,各自服从均匀分布。
•
第五组是data augmentation 和 mixup结合的CE。
•
第六组是 data augmentation 和 mixup 结合的BCE。
第一组测试是clean test 和 noisy test,它是针对单个说话人的,期望模型在clean和noisy场景能识别出说话人。我们要计算各个模型的top1准确率。
第二组测试是seen speaker A和seen speaker B两个人的语音的mixup。为了匹配实际的场景,后续会增加到三个人甚至四个人的mixup。他们mix的系数分别服从0.1到0.9的均匀分布。这组测试期望模型能捕捉到语音中任意在训练集中出现过的说话人,所以我们要计算模型的topk准确率。
第三组测试是seen speaker A和 unseen speaker B语音的mixup。这组测试期望模型能在unseen speaker的干扰下仍然能识别出seen speaker。所以我们要计算模型top1的准确率。
2
clean model 理论上在clean test应该是最好的,而其他模型只要在这种场景下与clean model 差距不太大就是可比的。
3
而这三个模型 理论上在noisy test表现较好。其中dataaug在训练的时候就提供了一个高斯噪声,而mixup CE由于使用的是beta分布的线性插值,所以得到的新的x和y都是靠近这两组原来的数据中的其中一组,所以实际上这种标准的mixup也是一种数据增强,它建立了数据之间的线性关系。
4
而这四个模型主要关注的是在测试2和测试3的结果。因为刚刚提到理论上标准的mixup CE 数据点只是落在原来数据点的附近,可能在实际的混杂的人声中的效果没有特别好。而我们的mixup BCE实际上学习到的是一个输入平面到说话人标签的对应,理论上能更好的适应实际场景,而且mixup BCE通过学习两两说话人之间的关系可能可以得到多个说话人连续的分布。所以可能会更加适应多个说话人mixup的场景。
而为了验证这些模型的泛化性能,我们还设计了测试3,用一个unseen speaker作为干扰,去看模型是不是还能识别到seen speaker。
画板