大会竞赛

竞赛征集 SARDet竞赛 广域红外小目标检测挑战赛 大规模X光安检图像检测挑战赛 行车场景下认知与决策 基于多模态大模型的智慧城市治理图像识别挑战赛
基于多模态大模型的智慧城市治理图像识别挑战赛

中国移动-科大讯飞杯

基于多模态大模型的智慧城市治理图像识别挑战赛

竞赛目的与意义

伴随人工智能的快速发展,各类相关技术广泛应用于生活之中,其中智慧城市治理相关的政务场景便是其中之一。常见的智慧城市治理包含疫情防控、人流量监控等各行各业伴随城市人口的快速膨胀,传统人工监控的方式在效率上已难以满足现实要求,因此利用人工智能辅助政务管理愈发重要

近年来,各类计算机视觉算法得到了广泛研究,然而这些算法往往仅针对单具体业务场景,在多任务上的泛化能力较弱,这一点在智慧城市治理这一场景极为复杂的应用领域尤为明显。近两年大模型迅速兴起,这些优秀的通识大模型具有高度泛化性可以整合各类任务场景完成识别检测。因此,本竞赛旨在针对多个任务场景,探索单一多模态大模型的部署可行性。具体来说,本竞赛将针对佩戴口罩、人类头部、电动车进电梯、佩戴厨师帽和物体搬运这五项典型的智慧城市治理任务情景进行示例性的识别与目标检测探索,并进一步将大模型应用于其他各类智慧城市治理相关政务场景之中。

本竞赛的关键在于如何通过一个通识多模态大模型融合这五大任务,并使得大模型在其他任务上通过少量数据微调可以实现较好性能。近年来发布的GPTMonkey等通识大模型已基本能实现多任务图像物体识别,但是在目标物体的准确检测定位方面尚存在较大不足。因此本竞赛希望各参赛队伍利用一个通识大模型整合多任务的识别及目标检测问题,以鼓励业界学者们对相关工作的探索与研究,从而助力科技进步,更好地推动人工智能的发展。

竞赛组织方

中国移动通信集团研究院

中国移动技术能力评测中心

科大讯飞股份有限公司

北京邮电大学

联系方式:zgydjsnlpczxfs@chinamobile.com

竞赛参与者要求

大赛面向社会各界开放,不限年龄、国籍,各研究团体、企事业单位人员均可参赛。

参赛方式

以个人或团队方式均可通过邮件方式报名参赛,每个参赛队伍人员不超过5人,每名参赛选手只能参加1个参赛队,每个参赛队伍在竞赛截止时间之前最多可更新3次结果,截止时间之后不能再更新结果。参赛队发送报名信息至竞赛组织方邮箱进行报名。

邮件标题格式:中国移动-科大讯飞杯 基于多模态大模型的智慧城市治理图像识别挑战赛+(参赛队名称)”

邮件内容应按照下表进行信息填写,填写好后保存为excel的格式,文件命名为“中国移动-科大讯飞杯 基于多模态大模型的智慧城市治理图像识别挑战赛+(参赛队名称).xlsx”,并将excel作为附件随邮件发送。

竞赛组织方收到邮件并与报名者确认后,报名成功。

报名截止日期:2024年8月11日

参赛队名:


序号

角色

姓名

所属团体

最高学历

手机号

邮箱

1

组长






2

组员






3

组员






4

组员






5

组员






组织方式

拟采用的组织方式为,竞赛组织方首先公布训练集和验证集图片以及对应的标注,各参赛队需在自行准备的软硬件环境下进行算法调试。之后在比赛截止前72小时,竞赛组织方会公布测试集图片且不提供标注,各参赛队伍需自行完成推理,并将推理结果以规定形式上传至竞赛平台,竞赛组织方会根据标注判断各参赛队伍预测结果的精度,并在平台上进行公布,各参赛队伍可根据精度重新调试模型并提交,直至提交达到3次或比赛时间截止。在这之后竞赛组织方会对各队伍提交的最终版推理结果进行评测,并公布各队最终名次,其中排名前五的队伍会被要求提供全套代码、环境及模型文件,并由竞赛组织方进行复现。

赛程如下:

时间

任务

5月31日

竞赛组织方在站公布比赛任务、参赛办法评比方式。

6月1日-8月11日

参赛队伍报名及邮件资格确认。

7月1日-8月25日

比赛正式开始,竞赛组织方在平台上公布训练集和验证集图片以及对应的标注,各参赛队自行下载数据并对各自算法进行调试。

8月26日-8月28日

竞赛组织方在平台上公布测试集图片且不提供标注,各参赛队伍自行完成模型推理,并将推理结果以规定形式上传至平台。竞赛组织方会针对推理结果计算精度并在平台公布,各参赛队伍可继续调试算法并重新提交推理结果,在规定时间内最多可以提交3次。

8月29日-9月30日

竞赛组织方针对各参赛队伍最终提交的推理结果,对结果进行评测,评比各队次。

10月18日-10月20日

PRCV 2024大会期间,召开workshop介绍比赛方法颁奖。

赛事数据集的使用

本次比赛不提供硬件资源,采用的数据来源于竞赛组织方发布的数据集,数据集具有如下特点:

对于五个任务的数据,每个任务的数据仅包含该任务标注而不含其他四个任务的标注,即五个任务的数据彼此独立相互不存在任何关系。所有的数据标注格式均为每张图片对应一个识别标注txt文件和一个目标检测标注txt,文件名分别为图片名_recognition.txt和图片名_detection.txt

五个任务的数据使用及划分方式均保持一致,具体如下所示:

训练集:竞赛组织方提供1000张图片及其标注,参赛队伍亦可自行使用其他数据集进行模型训练;

验证集:竞赛组织方提供250张图片及其标注,参赛队伍亦可自行使用其他数据集进行模型验证;

测试集:竞赛组织方提供250张图片,不提供标注。

各任务识别及目标检测的标注文件含义如下所示:

识别标注部分,每个标注文件内只有一个数字,分别为0代表存在对应类别目标,1代表不存在,具体各任务类别标签含义及示例图如下:

1.口罩识别

类别标签:0代表存在未戴口罩的人,1代表不存在未戴口罩的人;

 

6-1 口罩识别示例图

2.人头识别

类别标签:0代表存在人类头部,1代表不存在人类头部;

 

6-2 人头识别示例图

3.电动车进电梯识别

类别标签:0代表存在电动车进电梯,1代表不存在电动车进电梯;

 

6-3 电动车进电梯识别示例图

4.厨师帽识别

类别标签:0代表存在未戴厨师帽的人,1代表不存在未戴厨师帽的人;

 

6-4 厨师帽识别示例图

5.物体搬运识别

类别标签:0代表存在人搬运物体,1代表不存在人搬运物体;

 

6-5 物体搬运识别示例图

目标检测标注部分,每个txt文件里每一行对应一个检测目标;每一行中第一个数字代表类别,第二个数字代表矩形框中心点归一化横坐标x,

第三个数字代表矩形框中心点归一化纵坐标y,

第四个数字代表图像归一化矩形宽度w,

第五个数字代表图像归一化矩形框高度h,

每个数字之间以一个空格为分隔,具体各任务类别标签含义如下:

1.口罩检测

类别标签:0代表face(没戴口罩)、1代表mask(戴了口罩),未检测到人则输出为空txt;

2.人头检测

类别标签:0代表head(人头),未检测到人则输出为空txt;

3.电动车进电梯检测

类别标签:0代表ebike(电动车进电梯),未检测到车则输出为空txt;

4.厨师帽检测

类别标签:0代表hat(厨师帽)、1代表head(未戴帽子)、2代表other-hat(其他帽子),未检测到人则输出为空txt;

5.物体搬运检测

类别标签:0代表carry(搬运),未检测到人则输出为空txt;

任务设置

本竞赛所发布的训练集、验证集和测试集会各自分为五个任务,每个任务一个文件夹,每张图片对应两个标注txt文件,分别对应识别标注和目标检测标注。要求针对五个任务场景,只训练一个通识大模型(不能是类似目标检测小模型+大模型的多个模型组合的形式),完成全部的识别及目标检测,并确保训练的大模型在其他额外任务上,利用相应的提示词能实现基本识别功能。即各参赛队伍需要利用一套工程代码,训练唯一的模型文件,并利用该模型在五个任务的测试集上完成推理,针对每个任务的图片分别生成识别及目标检测推理结果。注意,模型在该任务上的推理结果只能包含该任务的预测值,而不能包含其他任务的。

具体来说,识别的推理结果为该图片中是否存在该任务的相应类别,而不需要关注目标的具体位置和数量。比如口罩识别任务中,如果在图片中识别到了未戴口罩的人,则在txt第一行输出0,如果没有识别到未戴口罩的人(可能是所有人都戴了口罩,也可能是未识别到人),则在txt第一行输出1,具体格式与标注应保持一致。目标检测结果则为该图片中检测到的各个目标的类别及检测框位置,与常规目标检测任务类似,具体格式与标注应保持一致。除此以外,各个任务的预测结果应只包含该任务的信息,而不包含其他四个任务的结果,比如人头识别任务,对于识别到的人,只能输出0代表识别到了人头,而不能输出是否佩戴口罩的预测结果,最终针对五个任务中的每一张图片各自生成该任务专属的一个识别预测文件和一个目标检测预测文件,文件名及格式与标注保持一致。

因此针对以上要求,本竞赛要求参赛者的模型,需要能理解每张测试图片所属任务,并根据所属任务生成仅包含该任务结果的预测值,而不能包含其他任务的无关信息。与此同时,各参赛队伍还需确保训练的大模型在这五类任务以外的类似任务中,能实现基本的识别功能(类似GPT可以回答各类问题),这项能力只要求基本功能,不做具体的性能要求。所以常规视觉模型同时输出五个任务预测结果的形式不满足要求,而应当类似于GPTMonkey等通识大模型的推理形式,针对每张图片通过任务所属的关键词进行询问,生成对应任务的结果。比如可以询问大模型“图片中是否存在未戴口罩的人”,模型输出0代表存在,输出1代表不存在。其他四类任务的关键词类似,可以为“图片中是否出现了人类头部”、“图片中是否有电动车进电梯”、“图片中是否有人未正确佩戴厨师帽”、“图片中是否有人正在搬运物体”等,询问的关键词可自行拟定,最终输出结果与标注格式相同,且任务设置满足要求即可。

性能评价方法

针对本竞赛中的五个任务,会分别对识别部分和目标检测部分进行打分,最终得分由二者进行加权。

其中识别部分,各子任务仿照分类任务进行定义,以F1 score为评价指标,置信度可自行拟定。其中对于每一个子任务,识别到了对应类别的目标则定义为正,未识别到目标则定义为反,如口罩检测任务,若标注为0,而预测结果为1,则TP=0FP=0FN=1。最终识别的分数会以五个子任务加权的形式进行评比,加权系数均为0.2,即:

 

对于目标检测部分,各子任务按照目标检测任务进行定义,以mAP50值作为各个子任务的评价指标,即IoU阈值为0.5下的各类别AP平均值。而最终目标检测的分数会以五个任务加权的形式进行评比,加权系数均为0.2,即:

 

最终各参赛队伍的整体排名会以识别任务和目标检测任务加权的形式进行评比,加权系数如下:

 

比赛任务的提交格式

各参赛队伍需要提供模型在测试集上的推理结果以进行结果评估,其中针对每一个任务的每张图片应各自包含两个txt文件,分别为识别预测结果和目标检测预测结果。两个文件均应只包含该任务的推理结果,而不应包含其他四个任务的,每个txt中格式、含义及文件名需与标注文件完全相同。其中识别预测结果部分,仅包含一个数字,0代表对应类别存在,1代表不存在,具体含义见7.赛事数硬件资源的准备与使用方式。对于目标检测部分,其格式为每一行代表一个检测目标,第一个数字代表类别,第二个数字代表矩形框中心点归一化横坐标x,第三个数字代表矩形框中心点归一化纵坐标y,第四个数字代表图像归一化矩形框宽度w,第五个数字代表图像归一化矩形框高度h,每个数字间用一个空格分隔开,具体含义见7.赛事数硬件资源的准备与使用方式。

测试集数据标注格式与训练集和验证集数据标注格式完全相同,竞赛组织方会直接根据预测结果和标注计算评价指标,不会对预测结果的格式做适配。此外,排名前五的参赛队伍会被竞赛组织方要求提供全套工程代码、环境、模型文件及训练和测试所用提示词,并由竞赛组织方进行复现,复现不成功则成绩取消排名顺延。同时竞赛组织方还会针对排名前五参赛队伍的模型,在除这五类任务以外的其他类似任务上进行基本识别能力验证,确保模型具有通识泛化能力,不具备则成绩取消排名顺延。

10 奖项设置

一等奖1名(奖金2万元人民币),二等奖2名(奖金各1万元人民币),三等奖2名(奖金各0.5万元人民币)。

11 挑战赛论坛

竞赛组织方将举办挑战赛技术论坛,邀请每项任务获得一、二等奖的参赛队伍参加作特邀技术报告。

12 知识产权及其他注意事项

1. 各参赛队在赛前需签订数据使用协议,承诺本竞赛提供的数据集仅能用于本竞赛,不用于除本竞赛外的任何其他用途,并承诺数据用后即刻删除,不可扩散,主办方保留追究法律责任的权利。

2. 各参赛队需要承诺本队提交的结果可重复,参赛队所有的方案、算法以及相关的知识产权均属于参赛队伍所有,组织方承诺履行保密义务,并不用于除本比赛外的任何其他用途。

3. 参赛队伍应保证所提供的方案、算法属于自有知识产权。组织方对参赛队伍因使用本队提供/完成的算法和结果而产生的任何实际侵权或者被任何第三方指控侵权概不负责。一旦上述情况和事件发生参赛队伍必须承担一切相关法律责任和经济赔偿责任并保护组织方免于承担该等责任。

4. 该项竞赛为公益性赛事,全程不收取参赛队伍任何费用。

5. 竞赛期间,竞赛组织方坚持公开、公平、公正的原则。参赛结果评比由统一测试代码完成,如参赛队伍对公布结果有异议,可申请成绩复核。



官方公众号