赛道 1 - HumOmni

任务描述

给定文本语境、一段话语音频以及一组选项式候选回复音频，系统需要选出最具共情性的回复。

评测将参赛系统的预测结果与人工标注进行对比，因此该基准强调与人类判断一致的回复选择。

周围对话语境发生变化，代表不同的情境。模型需要判断哪条候选回复最适合特定的情境。

数据示例（音频与文本语境）

语境 1 在一次单身派对周末中，朋友们给 Ta 准备了一份包含美甲服务的水疗惊喜，而 Ta 以前从未去过美甲店。	语境 2 在幻想橄榄球赌约失败后，约定的惩罚是去做一套亮闪闪的夸张美甲，并保持一周。
话语音频
候选回复 A B ✓	候选回复 A B ✓

模型需要依赖话语中的声学和副语言线索来推断说话者的内在状态或情绪，并判断哪条回复在情感上最适合当前话语。

数据示例（音频与文本语境）

语境在妈妈膝盖手术前帮她整理客房时，我翻出一个落满灰尘、写着 “1996-2002” 的盒子，里面装满了夏令营拍立得和生日派对照片。几天后的一个晚上，我把这叠照片带回家继续整理。
话语音频：语气 1	话语音频：语气 2
候选回复 A ✓ B	候选回复 A ✓ B

阶段一测试集：

请从Hugging Face下载训练集:

排行榜将分别展示 context-variant 与 tone-variant 的结果, Accuracy / Bonus / Final Score, 以及最终得分的加权平均值。

排名	模型	Context-Variant	Tone-Variant	平均值
1	HumOmni_Nexus	358 / 125 / 0.833	98 / 11 / 0.727	456 / 136 / 0.811
2	111	339 / 116 / 0.784	113 / 23 / 0.907	452 / 139 / 0.810
3	smalltry	339 / 115 / 0.783	101 / 16 / 0.780	440 / 131 / 0.782
4	19191	313 / 100 / 0.712	109 / 19 / 0.853	422 / 119 / 0.741
5	Lenormand_Team	303 / 103 / 0.700	106 / 16 / 0.813	409 / 119 / 0.723
6	WhereIsAI-Lingnan	289 / 84 / 0.643	108 / 19 / 0.847	397 / 103 / 0.685
7	tryanderror2	232 / 67 / 0.516	95 / 5 / 0.667	327 / 72 / 0.547
8	HumOmni_H	235 / 53 / 0.497	79 / 4 / 0.553	314 / 57 / 0.508
(基线模型)	Qwen2.5-Omni-7B	189 / 32 / 0.381	60 / 3 / 0.420	249 / 35 / 0.389
(基线模型)	Qwen2.5-Omni-3B	182 / 31 / 0.367	66 / 3 / 0.460	248 / 34 / 0.386

公开成绩在评测流程结束后公布。当前成绩截至 2026 年 6 月 22 日 20:00 GMT+8 的提交结果。