Banner
专题论坛

组织者介绍

(点击头像查看介绍)

陈杰
北京大学
潘金山
南京理工大学
段岳圻
清华大学
周杰
清华大学

报告嘉宾介绍

(点击头像查看介绍)

彭宇新教授
北京大学
左旺孟教授
哈尔滨工业大学
翟广涛教授
上海交通大学
纪荣嵘教授
厦门大学
杨易
浙江大学
欧阳万里教授
上海人工智能实验室

主题介绍

 

多模态视觉内容生成是融合人工智能、计算机视觉与跨模态交互理论的核心前沿领域。以大模型技术为代表的创新方法,为多模态视觉内容生成提供了高效可控、跨域融合、低资源适配的解决方案,推动了内容生产、工业设计、自动驾驶、虚拟现实等领域的技术革新与产业落地。一方面,多模态视觉内容生成已成为计算机视觉与 AI 领域的核心研究方向,其技术突破直接引领生成式 AI 的应用升级;另一方面,该技术与数字经济、智能制造、元宇宙建设等国家战略需求深度契合,是解决内容生产效率低、跨模态协同难、场景适配性差等关键问题的重要手段。本论坛报告将围绕多模态视觉内容生成的核心技术与前沿应用,邀请领域内顶尖专家学者分享最新研究成果与未来发展方向

日程安排

时间:2025年10月17日15:50-17:50

时间:10月17日 报告嘉宾、单位 报告题目
15:50 - 16:10 彭宇新教授,北京大学 基于感知、推理与生成的空间智能
16:10 - 16:30 左旺孟教授,哈尔滨工业大学 可控视频生成与应用
16:30 - 16:50 翟广涛教授,上海交通大学 大模型时代下的AIGC质量评价
16:50 - 17:10 纪荣嵘教授,厦门大学 多模态大模型高效训练与压缩
17:10 - 17:30 杨易教授,浙江大学 混合模型协同的视觉生成技术
17:30 - 17:50 欧阳万里教授,上海人工智能实验室 迈向更好的视觉生成:从预训练到后训练

陈杰

北京大学

组织者介绍

北京大学副教授,主要研究方向是计算机视觉、AI4Science,致力于表征学习及其在大模型中的应用。他在Nature Machine Intelligence, Nature commutation, TPAMI等重要刊物或会议上发表论文260余篇,最高单篇引用达到3500余次,4篇文章引用超过1000次。担任国际顶级期刊TPAMI和IJCV的客座编辑,国际顶级会议的研讨会主席,例如ICCV,CVPR,ECCV,ACM MM等。累计主持或作为核心骨干参与国家发改委重大科技基础设施建设项目、科技创新 2030 —“新一代人工智能”重大项目(结题优秀)、国家工信部5G项目建设、国家自然科学基金、广东重点项目和应急项目等10余项。获国家科技进步二等奖,ACM 2022 戈登贝尔新冠特别奖提名(国际上高性能计算应用领域的最高学术奖项),2023年广东省科技进步特等奖、2024年华为“祖冲之”人工智能前沿创新年度重大成果奖、2024年“数据要素×科技创新”大赛国家二等奖,广东省一等奖。国家科协科技服务团专家,深圳市鹏城孔雀特聘岗位人才。


潘金山

南京理工大学

组织者介绍

南京理工大学计算机科学与工程学院教授、博士生导师;主要从事图像视频复原与增强等相关底层视觉问题的研究;目前在国际权威期刊和会议上发表论文100余篇,谷歌学术引用2万余次;研究工作曾获国家优秀青年科学基金、联合基金重点项目等的资助;在历史影像及经典影视修复方面的成果受到新华社、央视综合频道等多家媒体报道;目前担任IEEE TPAMI等期刊的编委以及CVPR等国际会议的领域主席。


段岳圻

清华大学

组织者介绍

段岳圻,清华大学电子系教研系列助理教授,博士生导师,研究方向为三维计算机视觉。以第一/通讯作者发表计算机视觉与模式识别领域IEEE汇刊和CCF-A类会议论文30余篇,入选中国科协青年人才托举工程项目,获2024年中国电子学会自然科学一等奖、2024年公安部科学技术奖一等奖、2020年中国人工智能学会优秀博士论文。主持科技部国家重点研发计划课题、北京市自然科学基金重点项目、国家自然科学基金青年项目等,作为项目骨干参与国家自然科学基金重点项目和联合基金重点项目。担任CVPR、ICCV、MM、ICLR等国际会议领域主席,中国计算机学会计算机视觉、人工智能与模式识别、多媒体技术专委会执行委员。

联系方式:13611137989,duanyueqi@tsinghua.edu.cn


周杰

清华大学

组织者介绍

周杰,清华大学自动化系教授,博士生导师,国家自然科学基金创新群体学术带头人,国家杰出青年基金获得者,人工智能与公共安全全国重点实验室主任,IEEE Fellow、 IAPR Fellow,中国自动化学会副理事长,国家重点研发计划重点专项项目首席科学家。长期从事计算机视觉与模式识别的学术研究,发表学术论文300多篇,其中IEEE期刊论文100余篇(含IEEE T-PAMI长文28篇)。以第一完成人获国家技术发明二等奖(2018年)、公安部科学技术奖一等奖(2024年)、中国电子学会一等奖(2011年、2024年)、中国发明专利银奖(2019年)。


彭宇新教授

北京大学

报告题目

基于感知、推理与生成的空间智能

报告摘要

空间智能是人工智能突破二维感知并迈向三维物理世界的关键技术路径,旨在突破空间感知、空间推理与空间生成三大关键技术,最终支持智能体实现三维世界的理解和交互。报告首先分析了空间智能的发展脉络与现有挑战:感知方面存在细粒度识别与运动分析不足;推理方面存在结构错误、效率低下与高延迟;生成方面存在空间布局与物理规律不合理的问题。围绕上述挑战,报告介绍了团队在空间感知、推理与生成三方面的研究布局与进展:首先通过人体、物体及场景的细粒度识别、定位与点云分析,增强细粒度感知能力;然后通过视觉搜索、关系推理与端侧模型加速提升推理预测精度和效率;最后通过空间布局、三维场景和视频生成增强虚拟世界生成能力。上述关键技术已在自动驾驶、视频生成、国土监测等领域实现应用,推动空间智能技术赋能行业应用。最后,报告从全维度细粒度感知、4D世界建模、群体具身智能等方面对空间智能的未来发展进行了展望。

报告嘉宾介绍

彭宇新,北京大学二级教授、博雅特聘教授,CAAI/CIE/CSIG Fellow,2019年国家杰出青年科学基金获得者(2025年获延续资助),2019年国家万人计划科技创新领军人才,2018年科技部中青年科技创新领军人才,863项目首席专家,中国工程院“人工智能2.0”规划专家委员会专家,中国人工智能产业创新联盟专家委员会主任,中国图象图形学学会副秘书长、提名与奖励委员会副主任,北京图象图形学学会副理事长。主要研究方向为多媒体分析、计算机视觉、人工智能。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步奖一等奖,2008年获北京大学宝钢奖教金优秀奖,2017年获北京大学教学优秀奖。主持了863、国家自然基金重点、北京自然基金联合基金重点、发改委专项等40多个项目。发表TPAMI、IJCV、CVPR、NeurIPS、ICML等ACM/IEEE Trans.和CCF A类论文160多篇,获最佳论文奖2次。10次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频搜索比赛,均获第一名。成果应用于国家网信办、公安部、国家广播电视总局等重要单位以及华为、腾讯、快手、蔚来、美团、中国电信、中国铁塔等头部企业。IEEE TCSVT高级领域编委、IEEE TMM等期刊编委,培养博士生获中国计算机学会、中国电子学会等优博。


左旺孟教授

哈尔滨工业大学

报告题目

可控视频生成与应用 (Controllable Video Generation with Applications)

报告摘要

AI视频生成近年来得以快速发展,但在可控性和拓展应用方面仍有许多值得挖掘与探索的空间。报告将一方面从可控性角度出发,介绍提升视频生成的相机/3D可控、物理符合程度及长视频生成的相关方法。另一方面,随着相关技术的发展与成熟,视频生成已可为许多其他相关任务提供基座作用。因而,还将以视频插帧和图像编辑为例,探讨视频生成先验在视频增强和图像编辑中可能发挥的作用。

报告嘉宾介绍

左旺孟,哈尔滨工业大学计算学部教授。主要从事底层视觉、视觉生成、视觉理解和多模态学习等方面的研究。在CVPR/ICCV/ECCV/NeurIPS/ICLR等顶级会议和IEEE T-PAMI、IJCV及IEEE Trans.等期刊上发表论文200余篇。曾任ICCV、CVPR、ECCV等会议领域主席,现任IEEE T-PAMI、T-IP、中国科学-信息科学等期刊编委。


翟广涛教授

上海交通大学

报告题目

大模型时代下的AIGC质量评价

报告摘要

在大模型时代,生成式人工智能(AIGC, AI-Generated Content)正深刻重塑内容生产与感知方式。图像、视频、语音及三维内容的自动生成已在创意设计、虚拟人、教育科研等领域全面渗透。然而,随着生成能力的持续跃升,如何科学、客观且可信地评估AIGC的质量,成为推动技术落地与产业标准化的关键挑战。传统基于像素或统计分布的客观指标以及数据驱动的深度学习模型难以全面刻画生成内容在真实感、语义一致性、审美表达与价值对齐等多维度特征。而进入大模型时代后,AIGC质量评价也迎来了新范式。一方面,评测数据从小样本静态集迈向跨模态、跨风格、开放域的大规模基准;另一方面,评测主体从传统算法转向具备语义理解与审美推理能力的多模态大模型,使质量判定具备更高的可解释性与泛化性。可以预见的是,AIGC质量评价将更进一步从单一结果判定走向动态反馈与优化机制,形成可信、透明、可演化、与人类感知对齐的智能评测生态,从而为生成式内容的安全、审美与社会价值提供科学支撑。

报告嘉宾介绍

上海交通大学教授,IEEE Fellow,国家自然科学基金杰出青年基金获得者,多年从事多媒体智能相关研究,入选Clarivate全球高被引学者,获IEEE多媒体汇刊和IEEE广播技术汇刊最佳论文奖等国际奖励30余项。以第一完成人获得中国电子学会自然科学一等奖、技术发明一等奖及中国图象图形学学会技术发明一等奖,主持国家自然科学基金重点、国家重点研发计划等项目。任Elsevier期刊Displays主编、上海市图像图形学学会理事长。


纪荣嵘教授

厦门大学

报告题目

多模态大模型高效训练与压缩

报告摘要

本报告介绍了面向大规模预训练模型的一系列高效压缩和加速技术创新。针对多模态大模型在实际部署中面临的计算资源受限问题,我们提出了从模型适配、参数压缩到推理加速的完整技术方案,包括:基于混合模态的高效视觉-语言指令迁移技术(LaVIN)、结合参数与计算效率的迁移学习方法(PCETL)、无需重训练的动态稀疏化方案、动态路由专家架构、基于仿射变换的模型量化技术(AffineQuant)以及分布拟合的视觉token剪枝方法(FitPrune)。这些技术在保持模型性能的同时,显著降低了计算开销和存储需求,已成功部署在多种国产计算平台和移动终端上,为大模型的广泛应用提供了关键技术支撑。

报告嘉宾介绍

纪荣嵘,厦门大学教授、博士生导师,现任厦门大学校长助理,人工智能研究院执行院长,教育部重点实验室主任。国家杰青、国务院特殊津贴获得者。长期从事人工智能领域前沿技术研究,近年来发表领域顶级期刊会议长文百余篇,谷歌学术引用近3万次。获2016年教育部技术发明一等奖、2018、2020、2023年省科技进步一等奖,国家人工智能国家标准工作组联合组长,福建省人工智能专家组组长。


杨易教授

浙江大学

报告题目

混合模型协同的视觉生成技术

报告摘要

本报告聚焦“混合模型协同的视觉生成技术”,系统阐释预训练通用模型、领域专用模型与人类先验的贯通融合,构建多重知识表达与协同计算框架,全面提升生成的可控性、效率与可解释性;面向三维人体重建、数字人生成、任意骨架驱动的三维生成、可控文生图与场景深度引导、图像抠图及单图三维操控等典型场景,展示从技术路径到工具化落地的最新进展,助力内容生产、工业设计、虚拟现实与影视特效等应用升级。

报告嘉宾介绍

浙江大学求是讲席教授(二级教授)、国家特聘专家。目前担任浙江大学人工智能所所长和微软-教育部视觉感知重点实验室主任。主要研究方向为人工智能及其应用。所发论文Google Scholar引用8万余次,H-index 141,近6年连续入选Clarivate Analytics全球高被引学者。获教育部全国优秀博士论文(2010)、澳大利亚基金委青年研究职业奖(2013)、澳大利亚计算机学会颠覆创新金奖(2016)、谷歌学者研究奖(2016)、澳大利亚科研终身成就奖(2019)、亚马逊机器学习科研奖(2020)、AAAI最具影响力论文(2021)、ACM MM唯一最佳论文奖(2023)等多项AI领域国际奖项,以及20余次国际科研竞赛世界冠军。


欧阳万里教授

上海人工智能实验室

报告题目

迈向更好的视觉生成:从预训练到后训练

报告摘要

视觉生成模型的发展面临两大关键挑战:其一是在预训练阶段赋予模型更强的泛化能力,如支持任意分辨率与采样步数的生成;其二是在后训练阶段实现对人类偏好的有效对齐,使生成结果更契合实际需求。本报告将从“预训练—后训练”的视角出发,介绍近期的探索。在预训练方面,NiT (Native Resolution Image Synthesis) 提出任意分辨率训练策略,通过扩展 DiT 结构,实现了对多分辨率图像的统一建模,大幅提升分辨率泛化与外推能力。TiM (Transition Models) 则提出新的训练目标,直接学习生成空间中解的流形,而非局限于 ODE 轨迹或端点拟合,从而赋予模型任意采样步数下的稳定生成能力。在后训练层面,我们介绍两项强化学习驱动的工作。一、VideoAlign 提出了一套面向视频生成的人类偏好对齐框架。该方法涵盖视频偏好数据构建、奖励模型训练,以及在流匹配范式下的训练时和测试时对齐,有效提升了视频生成的语义一致性、运动稳定性与视觉保真度。二、Flow-GRPO 首次将在线强化学习引入流匹配生成模型,通过将确定性常微分方程转化为等价的随机微分方程,引入必要的随机性以支持优势估计与探索,并结合降噪步数缩减与滑动窗口等机制实现高效训练。在复杂组合物体生成、文本渲染及人类偏好对齐等任务中,该方法均取得显著性能提升。

报告嘉宾介绍

欧阳万里,香港中文大学教授,上海人工智能实验室科学智能中心领军科学家,曾任悉尼大学电子信息工程学院研究主任。其团队在ImageNet和COCO竞赛多次获得第一。获IEEE TCSVT期刊最佳论文,ACL杰出论文,两篇文章入选paperdigest CVPR/ICCV最有影响力的文章。入选「人工智能全球2000位最具影响力学者榜」前100名学者。担任TPAMI,IJCV副编。担任CVPR2023、NeurIPS2024、NeurIPS2025、ICCV2025资深领域主席,AAAI24、CVPR2021、ICCV2021领域主席。


主办单位

中国图象图形学学会 (CSIG)

中国人工智能学会 (CAAI)

中国计算机学会 (CCF)

中国自动化学会 (CAA)

 

承办单位

上海交通大学 (SJTU)

上海飞腾文化传播有限公司


协办单位

AutoDL

华东师范大学

官方微信公众号