Pre Survery
输入“/”快速插入
Pre Survery
飞书用户2503
1月22日创建
实验配置
1.
数据集
1.1
欺凌场景音频
1.2
非欺凌场景音频
选自AudioSet eva bal_train unbal_train中具备"Speech"标签,并具备["Clapping", "Slap, smack"]中至少一个标签的音频
2.
audio_tagging使用模型
实验结果
3.
欺凌场景音频标签分析
3.1
标签出现频率分析
欺凌场景音频不同标签出现的频率
出现频率高于0.2的音频事件:
Speech
Child speech, kid speaking
Female speech, woman speaking
Slap, smack
Clapping
Inside, small room
Inside large room or hall
Animal Music
分析:整体可以分为三类
•
人说话声
:出现频率最高,其中Speech标签出现频率为100%
•
手掌拍击声
:出现频率在50%左右,其出现也与欺凌场景存在吻合
•
声场环境
:出现频率在20%~30%,但考虑到收声设备往往固定在某一位置,其声场环境并非变量,参考价值不大
因此,初步将欺凌场景的label pattern定为
人说话声
+
手掌拍击声
(分别对应"Speech"和["Clapping", "Slap, smack"])。在AudioSet的所有音频中,具备Speech标签的有1010480条音频,具备上述Pattern的有903条
3.2
标签置信度分析
非欺凌场景的一些主观判断:人耳听了其中的400多条,多数场景是"音乐会现场鼓掌","欢呼起哄"
欺凌场景标签置信度分布
50%
欺凌场景与非欺凌场景置信度分布对比
50%