Docs

Pre Survery

输入“/”快速插入

Pre Survery

飞书用户2503

1月22日创建

实验配置

1.
数据集​

1.1
欺凌场景音频​

1.2
非欺凌场景音频​

选自AudioSet eva bal_train unbal_train中具备"Speech"标签，并具备["Clapping", "Slap, smack"]中至少一个标签的音频​

2.
audio_tagging使用模型​

实验结果

3.
欺凌场景音频标签分析​

3.1
标签出现频率分析​

欺凌场景音频不同标签出现的频率

出现频率高于0.2的音频事件：

Speech Child speech, kid speaking Female speech, woman speaking

Slap, smack Clapping

Inside, small room Inside large room or hall

Animal Music

分析：整体可以分为三类

•
人说话声：出现频率最高，其中Speech标签出现频率为100%​

•
手掌拍击声：出现频率在50%左右，其出现也与欺凌场景存在吻合​

•
声场环境：出现频率在20%~30%，但考虑到收声设备往往固定在某一位置，其声场环境并非变量，参考价值不大​

因此，初步将欺凌场景的label pattern定为人说话声+手掌拍击声 （分别对应"Speech"和["Clapping", "Slap, smack"]）。在AudioSet的所有音频中，具备Speech标签的有1010480条音频，具备上述Pattern的有903条​

3.2
标签置信度分析​

非欺凌场景的一些主观判断：人耳听了其中的400多条，多数场景是"音乐会现场鼓掌"，"欢呼起哄"​

欺凌场景标签置信度分布

50%

欺凌场景与非欺凌场景置信度分布对比

50%