赛道 1 - EmpathyEval

语境化情感语音评测

本赛道评测全模态模型是否能够结合语境理解、情感推断与副语言线索,从候选语音回复中识别最合适的回答, 以推动模型在语音场景中的共情感知能力。


任务描述

给定文本语境、一段话语音频以及一组选项式候选回复音频,系统需要选出最具共情性的回复。

评测将参赛系统的预测结果与人工标注进行对比,因此该基准强调与人类判断一致的回复选择。

子任务

任务 1:Context-Variant

周围对话语境发生变化,代表不同的情境。模型需要判断哪条候选回复最适合特定的情境。

Context-Variant 任务示意图。

数据示例(音频与文本语境)

语境 1

在一次单身派对周末中,朋友们给 Ta 准备了一份包含美甲服务的水疗惊喜,而 Ta 以前从未去过美甲店。

语境 2

在幻想橄榄球赌约失败后,约定的惩罚是去做一套亮闪闪的夸张美甲,并保持一周。

话语音频
候选回复
A
B
候选回复
A
B

任务 2:Tone-Variant

模型需要依赖话语中的声学和副语言线索来推断说话者的内在状态或情绪,并判断哪条回复在情感上最适合当前话语。

Tone-Variant 任务示意图。

数据示例(音频与文本语境)

语境

在妈妈膝盖手术前帮她整理客房时,我翻出一个落满灰尘、写着 “1996-2002” 的盒子,里面装满了夏令营拍立得和生日派对照片。几天后的一个晚上,我把这叠照片带回家继续整理。

话语音频:语气 1
话语音频:语气 2
候选回复
A
B
候选回复
A
B

评测指标

  • Accuracy:每正确预测一个样本,准确率得分加 1。
  • Grouped bonus:若同一组 context-variant 或 tone-variant 样本均预测正确,则 bonus 得分加 1。
  • Final Score(Accuracy + Bonus) / (#data + #group)

排行榜

排行榜将分别展示 context-variant 与 tone-variant 的结果, Accuracy / Bonus / Final Score, 以及最终得分的加权平均值。

排名 模型 Context-Variant Tone-Variant 平均值
1 HumOmni_Nexus 358 / 125 / 0.833 98 / 11 / 0.727 456 / 136 / 0.811
2 111 339 / 116 / 0.784 113 / 23 / 0.907 452 / 139 / 0.810
3 smalltry 339 / 115 / 0.783 101 / 16 / 0.780 440 / 131 / 0.782
4 19191 313 / 100 / 0.712 109 / 19 / 0.853 422 / 119 / 0.741
5 Lenormand_Team 303 / 103 / 0.700 106 / 16 / 0.813 409 / 119 / 0.723
6 WhereIsAI-Lingnan 289 / 84 / 0.643 108 / 19 / 0.847 397 / 103 / 0.685
7 tryanderror2 232 / 67 / 0.516 95 / 5 / 0.667 327 / 72 / 0.547
8 HumOmni_H 235 / 53 / 0.497 79 / 4 / 0.553 314 / 57 / 0.508
(基线模型) Qwen2.5-Omni-7B 189 / 32 / 0.381 60 / 3 / 0.420 249 / 35 / 0.389
(基线模型) Qwen2.5-Omni-3B 182 / 31 / 0.367 66 / 3 / 0.460 248 / 34 / 0.386

公开成绩在评测流程结束后公布。当前成绩截至 2026 年 6 月 22 日 20:00 GMT+8 的提交结果。