赛道 1 提交格式
赛道 1 当前采用如下 jsonl 格式。
{"question_id": "gigaspeech_0_1", "answer": "A"}
{"question_id": "gigaspeech_0_2", "answer": "B"}
Note:
- question_id 应与测试集中的相同。
- 只提交一个包含所有子集结果的文件。
- 禁止使用API进行直接预测:测试数据不得用于任何API相关的过程,包括预处理、中间处理步骤、推理、结果预测或评估。API只能用于模型训练目的。
赛道 2 提交格式
对于每个样例,输入包含一个 json 文件和按 0.5 fps 采样的视频帧:
files for each question
1 question.json
2 0.5.png // the frame sampled at 0.5 sec
3 1.0.png
4 ...
5 16.5.png // the last frame of the video
question.json
1 {
2 "question_id": "IM9NZMRfLd4.1.mp4",
3 "question": "What kind of items are sold in the store?"
4 }
你的系统应当类似下面的 Python 伪代码:
inference pseudocode
1 input(question)
2
3 for current_time in range(0.5, video_length, 0.5):
4 # READING FRAMES FROM t > current_time IS STRICTLY PROHIBITED NOW
5 input(f"{current_time}.png")
6
7 if respond_now:
8 output(f"Model response at t={current_time}s")
你需要提交一个 jsonl 文件,每个样例占一行。每一行都是一个按如下格式组织的 json 对象:
{
"question_id": "IM9NZMRfLd4.1.mp4",
"model_response_list": [
{"time": 1.0, "content": "Model response at t=1.0s"},
{"time": 5.5, "content": "Model response at t=5.5s"}
]
}