开放世界的视觉感知和理解专题论坛
开放世界的视觉感知和理解”是计算机视觉与多媒体交叉领域的核心研究方向,致力于构建高效、鲁棒的视频内容感知、分析与生成模型,以实现对视频中行为、场景、对象及其关系的深度理解与智能合成。在大模型与多模态学习的推动下,该技术在行为识别、事件检测、视频摘要、内容生成等任务中持续突破,广泛应用于智能安防、人机交互、自动驾驶、媒体内容生产、教育评估等领域。本次专题论坛聚焦视频智能信息感知的最新理论与应用进展,汇聚学术界的专家学者,共同探讨多模态语义融合、时空建模、弱监督学习、生成式视频技术等关键问题,推动技术落地与产业创新,为构建更智能、更通用的视频理解与生成系统提供前沿洞察与解决方案。
时间:2025年10月17日 15:50-17:50
地点:分会场 C1 厅
报告嘉宾姓名、单位 | 报告主题 |
---|---|
肖俊 浙江大学 |
面向开放世界的视觉关系理解 |
何旭明 上海科技大学 |
面向开放世界的场景图生成 |
涂志刚 武汉大学 |
“以人为中心”视频行为识别与生成 |
张磊 重庆大学 |
视觉感知鲁棒性与泛化性的统一:理论与算法 |
刘洋 北京大学 |
以人为中心的的动态场景图生成 |
曾润浩 深圳北理莫斯科大学 |
面向多模态视频理解的模型运行时优化方法 |
何高奇,博士,华东师范大学教授,博士生导师,计算机学院党委委员。2007年博士毕业于浙江大学CAD&CG国家重点实验室。2000年至2003年在华为技术有限公司工作。曾在Cornell University、National University of Singapore、北京航空航天大学虚拟现实技术与系统国家重点实验室等国内外知名研究机构访问交流。主要研究方向包括计算机图形学、计算机视觉和AI4Science等。研究工作获得国家重点研发计划、教育部、上海市科委、上海市经信委、重庆市科学技术局等十余项纵向项目资助;与企业开展深度的产学研合作。已在国内外重要学术期刊和会议上发表学术论文90余篇,包括TPAMI、CVPR、AAAI、TMM、TVCG、ACM MM、CHI、IEEE VR等高水平期刊和会议。研制了首个基于分子三维相似性的国产药物设计图形软件和首个可交互式计算的VR药物设计软件;构建上海地铁人群数据集、多模标注盲道数据集;获得上海市科技进步二等奖、上海市计算机学会科技进步二等奖、上海市教育教学成果一等奖/二等奖、上海市高校教师教学创新大赛一等奖、华为金牌奖、华鑫奖教金等荣誉。
李洪均,博士,教授,南通大学信息科学技术学院副院长,电子信息工程专业负责人,智能信息处理团队负责人。2011年博士毕业于南京航空航天大学,2013年赴加拿大Concordia大学师从Ching Y.Suen教授。主要从事人工智能、模式识别、机器学习、图像处理和视频理解等方面的研究,在IEEE TMM、PR等期刊发表SCI/EI收录论文60余篇,授权专利20余件;主持或参与多项国家级、省部级自然科学基金项目;曾担任计算机国际会议ICBDA会议主席,IAPR TC3 Workshop on ANNPR宣传主席和ICIAI技术委员;担任IEEE ACCESS的专刊编辑,担任IEEE TPAM、IEEE TIP、IEEE TMM、IEEE TCSVT等期刊审稿人;获江苏省教育科学研究成果奖三等奖1项,自动化科技进步奖二等1项。
杨敬钰,天津大学教授,博士生导师。入选国家高层次青年人才、天津市创新人才推进计划、天津市“131”创新型人才培养工程等。主要研究领域包括计算成像与重建、底层智能视觉、遥感图像处理等。主持包括国家自然科学基金重点、航天科工集团等20余项科研项目。在国际知名期刊和会议上发表论文170余篇,包括IEEE期刊长文50余篇,曾获国际会议VCIP2016与ICME2017论文奖。曾获天津市科技进步发明一等奖、天津市技术发明一等奖、国家技术发明奖二等奖等科技奖励。现为IEEE高级会员、CSIG智能光学成像专委会常委、天津市人工智能学会常务理事。
徐天阳,江南大学副教授,博导。研究方向为视频理解、多模态信息融合,发表期刊与会议论文100余篇,包括CCF-A/IEEE会刊50余篇,其中IEEE TPAMI/IJCV 9篇,谷歌学术引用6000余次。主持国家自然科学基金面上和青年项目,主持江苏省杰青项目。获中国图象图形学学会优秀博士学位论文奖,获CVPR/ICCV/ECCV等模式识别和计算机视觉国际学术会议举办相关学术竞赛(VOT、MMVRAC、Anti-UAV、AI City Challenge、Perception Test Challenge)冠亚军10余项,连续入选斯坦福大学全球前2%顶尖科学家年度榜单。
谢源,华东师范大学计算机科学与技术学院教授、国家人工智能学院 (上海)全时导师、博士生导师、国家优青,教育部军民融合创新团 队核心成员,先后主持了科技部科技创新 2030“新一代人工智能”重 大项目课题,军委科技委国防创新特区项目,国家自然科学基金。在 国内外权威期刊和顶级会议上共发表学术论文百余篇,其中第一作者 /通讯作者 CCF A 类论文百余篇。相关成果 Google 引用次数超 1.5 万 次;提出的图像复原算法获得了 CVPR2020 图像视频复原和增强挑战赛 的图像去雾和去摩尔纹赛道的两项冠军;先后担任 IEEE TIP 编委, IJCAI,CIKM,ACMMM 等顶会领域主席;相关研究成果获得了上海市科 技进步特等奖、CSIG 科技进步一等奖、吴文俊人工智能科学技术奖自 然科学二等奖、福建省自然科学二等奖、中国自动化学会自然科学二 等奖。主要研究方向为跨模态大模型持续学习理论与方法、持续策略 驱动的具身智能。
面向开放世界的视觉关系理解
肖俊,教育部“长江学者奖励计划”特聘教授、浙江大学求是特聘教授/博士生导师,浙江大学人工智能研究所副所长,兼任浙江大学数字法治研究院副院长,视觉感知教育部-微软重点实验室(浙江大学)副主任,教育部人工智能协同创新中心(浙江大学)主任助理,中国工程科技数据和知识技术研究中心、数字图书馆教育部工程研究中心核心成员。近年来的研究工作主要集中于跨媒体智能、机器学习和计算机视觉领域,在深度学习中注意力机制建模、特征选择与融合以及时序数据优化等方面开展了一系列的理论研究并取得了一系列原创性科研成果,获得多媒体领域全球顶级学术会议ACM MultiMedia 2023唯一最佳论文奖。担任IEEE TPAMI、IEEE TMM、IEEE TCSVT、Information Science、Signal Processing、Neurocomputing等国际期刊审稿人,以及ACM MM、AAAI、CVPR、ICCV、ICML、ICLR、NeurIPS等高水平国际学术会议AC/SPC/PC或审稿人。
面向开放世界的场景图生成
何旭明,上海科技大学长聘副教授、研究员、博士生导师,现任上海市智能视觉与影像工程技术研究中心主任、上海科技大学信息科学与技术学院副院长。他于2008年在加拿大多伦多大学获计算机科学博士学位,之后在加州大学洛杉矶分校从事博士后研究,并于2010年起历任澳洲国家信息技术研究院和澳洲国立大学研究员与高级研究员。研究方向为计算机视觉、机器学习与科学智能,尤其聚焦在开放世界的场景理解、多模态数据理解与生成、少样本与非均衡数据学习、终生学习与新类发现等领域。在国际顶级期刊和会议上发表论文100余篇,包括Nature Communication,IEEE TPAMI, NeurIPS,ICML, ICLR, CVPR, ICCV,ECCV等,参与指导的论文获得IEEE CVPR Workshop 2017的最佳论文奖、IEEE FG 2023的最佳学生论文奖、 IEEE DAC 2024/2025最佳论文奖提名。多次担任人工智能顶会ICCV、ECCV、CVPR、NeurIPS、AAAI的领域主席,并任国际期刊TMLR的副主编。
“以人为中心”视频行为识别与生成
涂志刚,武汉大学研究员,湖北省杰青,博士生导师。研究领域:人工智能、计算机视觉,聚焦“以人为中心”视频行为识别、重建与生成。发表高水平论文80余篇,第一/通讯作者中科院1区Top SCI 期刊+CCF A类顶会论文近40篇。获2022年湖北省自然科学二等奖(排名1)等省部级科技奖励3项。主持国家重点研发课题、湖北省杰出青年基金、国家自然科学基金、教育部联合基金(青年人才类)、腾讯犀牛鸟基金(技术创新奖)等科研项目。指导学生获2024中国国际大学生创新大赛-高教主赛道“全国金奖”、国家自然科学基金“青年学生项目”。担任中国仿真学会-视觉计算与仿真专委会副秘书长等职务。开发了视频人体行为智能识别系统,成功应用“第七届世界军人运动会开闭幕式”等多个领域,被央视新闻/体育频道采访报道。
视觉感知鲁棒性与泛化性的统一:理论与算法
张磊,重庆大学教授,博士生导师,生物感知与多模态智能信息处理重庆市重点实验室主任,重庆市青年专家工作室首席专家,曾任鹏城实验室双聘研究员。主要研究复杂视觉感知、大模型高效迁移、时敏场景理解。承担国家部委、重庆杰青(获延续资助)以及多家头部企业项目近30项,累计发表IEEE TPAMI、IJCV、CVPR、ICCV、ECCV等期刊和会议论文160余篇,ESI高被引论文12篇,专著1部。以第一完成人获中国电子学会教学成果一等奖、吴文俊人工智能自然科学奖、优秀青年奖、重庆市自然科学二等奖、科技青年奖、华为公司火花奖/优秀成果奖,获IEEE诺伯特•维纳综述奖、ACM SIGAI新星奖、全国教学竞赛一等奖,连续6年获评重庆大学优秀博士/硕士指导老师奖、教书育人奖、教学成果特等奖。研制的机器嗅觉、毫米波人体感知原型机获重庆市重点新产品、创新产品金奖。担任IEEE TIP、TIM、Neural Networks期刊编委,电子学报、智能技术学报青年编委以及多个国际会议大会主席。入选国家及省部级人才计划、全球前0.5%科学家榜单。
以人为中心的的动态场景图生成
刘洋,北京大学王选计算机研究所研究员,博士生导师,北京大学博雅青年学者。博士毕业于英国剑桥大学,而后曾任英国牛津大学VGG博士后研究员。主要研究方向是多模态智能,旨在借鉴人脑的跨媒体特性,建立多模态语义关联与协同理解和转化,并驱动智能决策。侯选人发表70余篇计算机视觉和机器学习领域重要期刊与会议论文,授权国际发明专利7项。7项国际多模态相关竞赛获第一名。主持国家重点研发计划课题、国家自然科学基金面上项目等项目10余项,部分创新性研究成果及其关键技术已在学术及产业界得到了应用。
面向多模态视频理解的模型运行时优化方法
曾润浩,博士,深圳北理莫斯科大学人工智能研究院长聘副教授,博士生导师。广东省重大人才工程青年拔尖人才,深圳市科技创新人才,深圳市鹏城孔雀人才,广东潮博智库专家。研究领域涵盖机器学习、计算机视觉与多模态学习等,核心方向包括图结构化数据分析、视频动作识别、情绪识别和多模态大模型,在IEEE TPAMI、IEEE TIP、CVPR等国际顶级期刊会议发表论文20余篇,谷歌学术总引1900余次,单篇最高引600余次。在视频时序动作分析领域首创基于图结构的时空表示方法,在THUMOS14权威基准连续14个月排名全球第一,成果收录于科普教材《机器视觉》,已印3000册,获评第31届书博会少儿阅读节百种优秀图书并输出两种外语版权。近三年主持国家自然科学基金项目、广东省教育厅重点领域项目等纵向科研项目7项。获中国图象图形学学会优博提名奖(2023全国7人),IEEE杰出组织奖,成果入选计算机视觉国际顶级会议CVPR2024最佳论文候选(超1万篇投稿中的24篇之一)。受邀担任NeurIPS、CVPR等人工智能领域顶级会议和TPAMI、TIP等权威期刊的程序委员会委员和审稿人。担任国际会议IEEE SmartIoT 2024本地主席、CSIG青科会2023论坛主席,广东图象图形学会计算机视觉专委会委员。
中国图象图形学学会 (CSIG)
中国人工智能学会 (CAAI)
中国计算机学会 (CCF)
中国自动化学会 (CAA)
上海交通大学 (SJTU)
上海飞腾文化传播有限公司
AutoDL
华东师范大学