大会竞赛

竞赛征集 SARDet竞赛 广域红外小目标检测挑战赛 大规模X光安检图像检测挑战赛 行车场景下认知与决策 基于多模态大模型的智慧城市治理图像识别挑战赛
行车场景下认知与决策


image.png

获奖名单公示

获奖级别获奖单位团队名称获奖队员
一等奖Hozon New Energy Automobile Co., LtdE2EAutoMatrixTeam

黄斌,王思宇,陈远鹏,吴彝丹,宋辉,

丁子凡,冷静,梁成鹏,张军良,薛鹏


竞赛名称

行车场景下认知与决策

竞赛目的与意义

自从ChatGPT大火以来,多模态大语言模型因其通过文本处理和推理非文本数据(如图像和视频)的能力而受到研究界各领域的广泛关注。23年上半年到如今,大语言模型+自驾已有一些初步的尝试,如DriveGPT4GPT-Driver等一系列工作利用了现有的模型进行训练或微调,但是其主要关注点还是集中在传统的训练模式,并没有针对自驾领域提出一种应用通用VLM/LLM模型的新型范式。在这一大背景下,OpenDriveLab提出DriveLM,认为通过充分考虑驾驶特性,巧妙地构建含图结构的问答对,能够有效前迁移VLM的强泛化性至自驾领域,解决自驾领域泛化性不足的心头大患

本任务旨在用视觉语言模型提升自动驾驶系统性能。模型需要引入视觉语言模型的视频理解能力帮助自车做出决策,并输出可解释的驾驶行为。给定多视角图像作为输入,模型需要围绕自动驾驶系统中感知、预测、规划方面问题做出回答。

 

 

竞赛组织方(包括联系方式)

上海人工智能实验室, contact@opendrivelab.com

组织者:李阳、王晖杰、张涵雪李天羽、李弘扬

 

竞赛参与者要求

参赛细则

• 参赛者只能一个隶属团队,不得同时属于多个团队。

• 一个团队最多由10名成员构成。

• 参赛团队必须通过表格(https://docs.google.com/forms/d/e/1FAIpQLSef_L4L9jXV_88pXkuFmaloifhRuFjVARbjsV-8GWETc6aNCA/viewform)进行注册,可在比赛截止前对报名表格进行修改。

• 同一个组织可以同时拥有多个团队。

• 参赛者将获得由赛事组委会颁发的证书。

• 尝试破译测试集或进行类似行为将被取消资格。

技术细则

• 除非有明确说明,禁止使用未来的帧作为模型输入。

• 在技术报告中必须明确描述数据的使用方式。

• 在比赛结束后,所有技术报告将被公开。

评审细则

• 参与评奖必须满足以下要求:

○ 团队必须在提交截止日期之前在排行榜上公开结果,并在此后继续保持公开状态;

○ 团队必须以PDF格式提交技术报告,最多4页(不包括参考文献);

○ 如有需要,团队必须向赛事组委会提供其代码、镜像或为进行验证所需的必要材料。

• 比赛奖项将由赛事组委会对技术报告评审后决定。

• 赛事组委会保留更新规则的权利;赛事组委会保留取消违反规则团队参赛资格的权利;赛事组委会对比赛拥有最终解释权。

报名方式

参赛团队必须通过表格(https://docs.google.com/forms/d/e/1FAIpQLSef_L4L9jXV_88pXkuFmaloifhRuFjVARbjsV-8GWETc6aNCA/viewform)进行注册,可在比赛截止前对报名表格进行修改。

主要时间节点

• 202461: 参赛指南发布

• 2024620: 测试服务器开放

• 2024920: 测试服务器关闭;报名注册截止

• 2024101:  技术报告提交截止

• PRCV 2024:获奖者公布

竞赛数据、硬件资源的准备与使用方式

• 数据集:Drive LM - nuScenes https://github.com/OpenDriveLab/DriveLM

训练集4072帧,测试集799帧,每帧约90个问答对

• 自备机器进行训练,参考训练时间:8V1001

任务设置

输入

• 来自六个相机的多视角图片,包括历史帧

• 以文本提出的问题

输出

• 文本形式的答案 (包括感知-预测-规划三个方面)

• 规划模块给出的动作分类

结果的评价方式

• 语言评测:子评测指标包括BLEU, ROUGE_L, CIDEr, 用于评估自然语言生成结果的各种无监督自动化指标。

• 准确率:正确预测的样本数与样本总数之比。

• ChatGPT 得分:使用 ChatGPT 对真实答案和预测答案的匹配度打分

• 匹配得分:正确预测的重要对象数量与总对象数量之比

我们对之前的几项得分进行加权和平均,得出最终得分,其中 ChatGPT 得分、语言得分、匹配得分和准确率的权重分别为 0.40.20.2 0.2

结果提交方式

在测试服务器关闭之前,参赛者需要在Hugging Face上提交结果。(地址:https://huggingface.co/spaces/AGC2024/driving-with-language-official)

参考样例

https://github.com/OpenDriveLab/DriveLM/blob/main/challenge/llama-adapter-DriveLM.json

提交准备

1. 根据参考样例的格式准备结果

2. 将结果保存在json文件中,并命名为 submission.json.

3.  将结果作为一个Hugging Face model进行提交。注意私有模型在竞赛空间中也是可以被接受的。

Hugging Face网站右上角点击个人profile的图片,选择New Model,接着在表格中填写相应信息并提交submission.json 

提交过程

1. 在竞赛空间左侧栏中选择 New Submission 。在表格中粘贴所创建的 Hugging Face model 的链接。接着点击 Submit 完成一次新的提交

2. 注意一天中最多只能进行三次提交

奖项设置和奖励方法

• 创新奖:2,000人民币

• 一等奖:3,000人民币

知识产权归属

参赛选手提交的结果归参赛选手所有;参赛选手提交的技术报告归赛事组委会所有(所有技术报告都将会被公开);赛事总结等赛后的成果归赛事组委会所有。

参赛团队注册方式

参赛团队必须通过表格(https://docs.google.com/forms/d/e/1FAIpQLSef_L4L9jXV_88pXkuFmaloifhRuFjVARbjsV-8GWETc6aNCA/viewform)进行注册,可在比赛截止前对报名表格进行修改。


官方公众号