HUAWEI Project
输入“/”快速插入
HUAWEI Project
飞书用户7208
飞书用户2982
3月12日创建
需求
1.
希望模型可以通过事先录制的固定短语音注册说话人信息,确定混合语音中需要分离的目标说话人。
2.
输入的混合语音将是包含多个近场说话人语音与嘈杂音乐的复杂场景。
3.
考虑到不同设备的不同采样通道,希望模型采取单通道的输入方式,多通道数据,将随机采样一个通道作为输入。
4.
考虑到通话等场景的实时性,希望模型可以流式的处理输入语音数据,并实时地进行分离。
模型
评价指标
SI-SDR
SI-SDR代表“Scale-Invariant Signal-to-Distortion Ratio”(尺度不变信号失真比),是评估语音信号源分离性能的一种指标。
具体而言,SI-SDR相比于SDR考虑了两个信号之间的比例因子α,使其对信号幅度的尺度变化不敏感。这使得SI-SDR更加关注信号源的失真程度,而不受信号幅度的绝对变化的影响。
SI-SDR的数学表达式为:
其中,target 代表是真实的目标信号,estimate 是从混合信号中分离出的估计信号。
SI-SDR的值越高,表示分离效果越好。通常,如果SI-SDR为正值,表示分离的信号比原始信号更好;如果为负值,表示分离的信号比原始信号更差。
总体框架
以下是模型的总体框架图:
Speech Encoder
speech encoder 部分将实现混合语音到embedding的转变,这里采用不同窗口长度的encoder,以提取混合语音中不同时间精度的信息。
Speaker Encoder
speaker encoder用来提取目标说话人的注册语音embedding
这里我们使用一个一个事先在Cnceleb数据集训练的sunine-develop模型,作为TSE模型auxiliary network的预训练模型。
Masker
masker将训练出一个保留目标说话人数据,去除非目标说话人信息的mask, 将不同精度的mask和对应精度的speech embedding点乘得到不同精度的预测嵌入,在测试时,将选择最高精度(0.0025*16000)的mask1输出来分离语音。
数据
数据来源
采用原用于解决不同华为终端设备在声纹认证时存在的设备失配问题的 HuaweiCrossChannel 数据集中的部分数据作为干净语音和注册语音。