HumOmni：第一届以人为中心的全模态模型评测

面向语境化情感语音生成与主动式多模态交互的评测基准

🌟 更新: 阶段2公告于重要日期和提交 🌟

征集概览

HumOmni-2026 设置两条评测赛道，聚焦全模态模型在共情语音理解和生成（EmpathyEval）与流式视频场景主动辅助（ProactivEval）的能力评估，强调以人为中心的评测与贴近真实场景的多模态交互。

评测赛道

赛道 1：EmpathyEval

评测多模态系统如何理解人的语境和副语言信息，并给出合适的情感语音回应。

基准包含 Context-Variant 与 Tone-Variant 两种设置。
输入包括文本语境、一段话语音频以及候选回复音频。
评价指标为准确率。

查看赛道 1 详情

赛道 2：ProactivEval

评测主动式多模态系统在流式视频理解过程中何时回应、回应什么的能力。

输入包括视频及用户指令。
评价指标为 PAUC 和 Duplicate，关注时机、正确性与回复冗余度。

查看赛道 2 详情

奖项设置

表现最优且具有创新性的参赛队伍将受邀展示并获得华为赞助奖金。
每条赛道的冠军队伍将获得 1000 美元奖金。
第 2 名和第 3 名队伍将分别获得 800 美元和 600 美元奖金。

重要日期

两条赛道目前共享同一时间线，里程碑状态会显示为已结束、进行中或即将开始。

时间（AOE）	阶段	说明
2026 年 4 月至 6 月 10 日	报名	报名开放
2026 年 4 月 30 日	阶段 1	训练集发布
2026 年 5 月 15 日	阶段 1	测试集发布
2026 年 6 月 1 日至 6 月 30 日	阶段 1	公开评测，排行榜刷新
7 月 3 日至 7 月 9 日	阶段 2	阶段1前十名测试
2026 年 7 月 1 日至 7 月 9 日	阶段 2	最终模型和技术报告提交
2026 年 7 月 10 日至 7 月 30 日	阶段 2	组织方内部模型测试
2026 年 8 月 1 日	获奖	获奖团队公布
2026 年 8 月底（待定）	获奖	现场颁奖

通用规则

为保证公平性，前 10 名队伍需提交技术报告以供可复现性核验。最终排名将由评审委员会综合预测结果以及技术报告质量来决定。技术报告须以 PDF 格式提交，正文内容不得超过 4 页，附加用于模型验证和可复现性检查所必需的技术细节（不限页数）。
每份参赛结果都必须关联到一个队伍及其所属机构，同一队伍的所有成员需统一报名。
严禁通过使用多个账号来增加提交次数。
提交结果必须遵循规定的格式与提交流程，否则将被视为无效提交。
每支队伍的最佳结果将始终公开显示在排行榜上。
对于不完整、难以辨认、逾期或违反规则的参赛结果，组织方保留取消资格的绝对权利。
中英文规则不一致时以英文内容为准。

组织者

Emmanuele Chersoni

Emmanuele Chersoni

PolyU

Geng Wang

Geng Wang

Huawei

Hong Lanqing

Huawei

Huang Yuqi

CUHK

Lee Tsz Fung

Lee Tsz Fung

PolyU

Li Jing

PolyU

Li Piji

NUAA

Lin Chenghua

UOM

Luo Xuan

Luo Xuan

PolyU

Qi Xiaojuan

HKU

Wang Yueqian

PKU

Wei Zhongyu

FDU

Wu Jibin

PolyU

Zhang Huishuai

PKU

Zhao Libo

Zhao Libo

PolyU

顾问

He Yulan

KCL

Liu Qun

Huawei

Wong Kam-Fai

CUHK

Xu Ruifeng

HITsz

Zhao Dongyan

PKU

联系我们

如有与比赛相关问题，请电邮 humomni2026@googlegroups.com。