研究成果专题

实验室12篇论文获ICCV 2025录用

发布时间：2025-07-21【字体：大中小】

近日，人工智能领域顶级会议ICCV公布了2025年的论文录用结果，智能算法安全全国重点实验室共12篇论文获得录用。

ICCV的全称是国际计算机视觉会议（International Conference on Computer Vision），每两年举办一次，是计算机视觉领域的顶级会议，被中国计算机学会 CCF 推荐为 A 类国际学术会议。本届会议共收到11,239篇有效投稿，最终接收2,698篇，接收率为24%。会议将于2025年10月19日至23日在美国夏威夷檀香山举行。

论文简介

1.NAPPure: Adversarial Purification for Robust Image Classification under Non-Additive Perturbations

作者：南俊杰，李家宁，陈薇，张明坤，程学旗

内容简介：对抗净化方法在应对对抗性图像扰动方面取得了巨大成功，这些扰动通常被假设为加性的。然而在现实世界中，模糊、遮挡和扭曲等非加性对抗扰动也很常见。在这类扰动下现有的对抗性净化方法效果较差，主要因为它们是为适应加性扰动而设计的。本文提出了一种扩展的对抗性净化框架 NAPPure，能够处理包括非加性在内的任意扰动类型。具体而言，首先建立对抗性图像的生成过程，然后通过似然最大化来分离潜在的干净图像和扰动参数。在 GTSRB 和 CIFAR-10 数据集上的实验表明，NAPPure 显著提高了图像分类模型对非加性扰动的鲁棒性：例如在 GTSRB 数据集上，NAPPure 针对非加性扰动的平均鲁棒准确率达到70.8%，而传统的对抗性净化方法仅为43.2%，标准的对抗训练为 33.8%。NAPPure这一框架有诸多有益特性：当扰动类型为加性时，其自然地退化为传统的对抗性净化方法，具有兼容性；通过聚合多个简单变换可以得到复合的非加性变换，且每个组件都可以即插即用；通过引入单独的损失项，可以自然地整合关于扰动参数的先验知识。

2.Feature Decomposition-Recomposition in Large Vision-Language Model for Few-Shot Class-Incremental Learning

作者：薛宗耀，阚美娜，山世光，陈熙霖

内容简介：小样本类增量学习（Few-Shot Class-Incremental Learning, FSCIL）专注于利用新类别的少量样本增量地学习新类别。该任务既面临对旧类别的灾难性遗忘问题，又面临对样本稀缺的新类别的过拟合问题。冻结预训练主干网络并将类特征聚合为原型，是一种直观且有效缓解灾难性遗忘的策略，其基础是大规模预训练视觉语言模型（Vision-Language Models, VLMs）提供的能够良好泛化于不同类别的丰富特征表示。然而，此策略未能解决过拟合问题，并且由于每个新类别样本稀少，其原型特征存在语义偏差。为克服这些问题，我们提出了一种基于VLM的特征分解-重组（Feature Decomposition-Recomposition, FDR）方法。首先，我们在基础类别的文本关键词引导下，将CLIP特征分解为语义上独立的片段。随后，在新类文本描述的指导下，我们在属性层面对这些片段进行自适应重组，形成校准后的新类别原型特征。该重组过程在属性层面是线性操作的，但会在整个原型特征上诱导出非线性调整。这种细粒度的非线性重组，继承了大模型的泛化能力和基础类别的自适应重组能力，从而提升了FSCIL的性能，在1-shot场景下，该方法在CUB200数据集上的新类别识别精度相较于当前SOTA方法的基线方法提升了6.70%~19.66%。

3.G2PDiffusion: Cross-species Genotype-to-Phenotype Prediction via Evolutionary Diffusion

作者：刘梦迪，高张阳，常虹，李子青，山世光，陈熙霖

论文链接：https://arxiv.org/abs/2502.04684

内容简介：基因到表型的预测是基因工程领域的基本问题，能够为农业育种、个性化医疗等提供决策依据。然而，当前的模型通常局限于单一物种，并依赖昂贵的表型标注过程，使得基因到表型预测成为一个高度领域依赖且数据稀缺的问题。为此，我们建议将图像作为表型代理，将基因到表型预测重新定义为条件图像生成问题，并提出了首个基因到表型的扩散模型（G2PDiffusion）。该模型通过结合两个关键的进化信号——多序列比对（MSA）和环境上下文从DNA生成形态学图像，其包含三个创新组件：(i) MSA检索引擎，用于识别保守性和共进化模式；(ii) 环境感知的MSA条件编码器，能够有效建模复杂的基因型与环境之间的交互；(iii) 自适应表型对齐模块，用于提升基因与表型的一致性。通过对跨物种的多模态数据大规模训练，G2PDiffusion在生成不同物种的表型图像时展示了优越的准确性和泛化能力，从而为AI辅助的基因组分析开辟了有价值且前景广阔的研究方向。

4.CogCM: Cognition-Inspired Contextual Modeling for Audio Visual Speech Enhancement

作者：王飞翔，杨双，山世光，陈熙霖

内容简介：音视语音增强（Audio-Visual Speech Enhancement）旨在通过融合说话过程中的音频与面部动态的视觉信息，应对外界噪声的干扰，输出高质量的语音。认知科学研究揭示，人在理解语音时，会协同整合听觉与视觉线索，并在语义和信号层面形成层次化的处理机制，使人可以在含有复杂噪声的现实环境中依然清晰感知与理解被干扰的语音片段。受此启发，我们提出了一种认知驱动的多层次上下文建模框架CogCM，模拟人在复杂环境下对音视模态信息的整合和利用过程，以应对语音噪声问题。具体而言，CogCM框架包括三个核心模块：（1）语义上下文建模模块（SeCM），用于从音频与视觉模态中捕捉高层语义信息；（2）信号上下文建模模块（SiCM），建模语音信号层面的时频细粒度信息；（3）语义-信号引导模块（SSGM），利用语义信息作为引导信号，在时域和频域两个维度上协同增强语音信号的建模，最终输出高质量的语音信号。在7个公开基准数据集上的大量实验对比表明了CogCM的优越性，尤其是在极低信噪比（如-15dB SNR）条件下，依然显著优于现有最先进方法：在SDR和PESQ指标上分别实现了63.6%和58.1%的提升。该结果充分表明了该框架在音视语音增强任务中的先进性和实际应用价值。

5.Not Only Vision: Evolve Visual Speech Recognition via Peripheral Information

作者：袁昭新，杨双，山世光，陈熙霖

内容简介：人在做视觉语音识别（Visual Speech Recognition）时往往不只依赖说话者面部呈现的视觉信息，还会结合诸如当下的语境、自身对视觉语音识别任务本身的经验或相关的先验知识等额外线索来综合分析和判断说话者的话语内容，特别是在复杂的场景下。受到人进行视觉语音识别过程的启发，我们借鉴视觉系统中“外围视觉”(Peripheral Vision)的概念，提出了面向VSR任务的 “外围信息” (Peripheral Information) 的概念来指代这些信息。我们根据这些信息与话语内容的相关程度，将其划分为由强到弱的三大类：（1）语境线索（Contextual Guidance，如说话时的话题背景或对于说话内容的概要介绍等），（2）任务经验（Task Expertise，如人类在唇读过程中积累的关于易混淆的读音及唇形的相关知识和经验等），以及（3）语言扰动（Linguistic Perturbation，一些随机干扰信号或噪声等）。不同类型的周边信息提供的辅助线索的相关性及有效性不同，为了合理地利用这些信息，我们构建了一个新的VSR框架。该框架引入大语言模型作为视觉语音识别模型中的解码器，以理解和嵌入不同层级的外围信息。在此过程中，我们引入一种协同低秩微调（Synergy LoRA）的方法，对唇语视觉模态与外围信息的语言模态进行共享与特有两种方式的协同适配，并对输入的外围信息进行混合专家（MoE）适配，允许模型根据每个语义特征动态选择最合适的一组专家模块进行处理。这一方法不仅实现了对不同相关性外围信息的有效利用，而且降低了由视觉和语言两个模态的差异带来的影响。最后，我们的方法在LRS3基准数据集上取得了22.03%的词错误率（WER），超越了以往基于相同规模VSR数据的方法；同时，在更复杂的AVSpeech数据集上的表现也进一步证明了该方法在真实场景下的泛化能力。

6.Benchmarking Multimodal Large Language Models Against Image Corruptions

作者：邱心宽，阚美娜，周永彬，山世光

内容简介：多模态大语言模型（Multimodal Large Language Models, MLLMs）在视觉-语言融合任务中取得了显著进展。尽管这些模型在标准数据集上表现优异，但在图像损坏场景中仍面临严峻的鲁棒性挑战。为应对这一问题，我们提出MLLM-IC 基准 （MLLM-Imaged Corruption Benchmark），专门用于评估 MLLM 在图像损坏条件下的性能。相较于现有基准，MLLM-IC 提供了更全面、更系统的鲁棒性评估框架，涵盖 34 项基础多模态能力和40 种不同的图像损坏类型。值得注意的是，这是首个支持细粒度 MLLM 能力评估的图像损坏鲁棒性基准。我们利用该基准对多个主流 MLLM 进行了系统评估，揭示了其在图像损坏条件下的关键特性差异。我们相信，MLLM-IC 基准将为深入理解 MLLM 的鲁棒性提供重要基础，并助力开发更稳健的 MLLM 模型。

7.HIS-GPT: Towards 3D Human-In-Scene Multimodal Understanding

作者：赵家和，侯瑞兵，田泽杰，常虹，山世光

论文链接：https://arxiv.org/abs/2503.12955

代码链接：https://github.com/ZJHTerry18/HumanInScene

内容简介：现有的三维视觉场景下的多模态大模型展现出了强大能力，但存在的一个明显局限性是只能针对没有人类活动的场景展开理解。为解决以上问题，本文提出了一类新的任务——场景中人体 (Human-In-Scene) 理解，对三维场景下的人类进行综合认知。首先，本文针对这一新任务提出了一个全面的评测基准HIS-Bench，涵盖对人类在场景中活动、行为的感知、推理与规划等16个子任务。为了构建这一基准，本文借助多类专家模型，从现有的三维场景中人体运动数据集出发，构造了一套自动化的数据生成流程。其次，本文提出了三维场景人体理解大模型HIS-GPT，解决了现有三维场景大模型不能有效处理Human-In-Scene任务的问题。HIS-GPT借助预训练的编码器分别编码场景与人体运动特征，并在此基础上加入辅助任务模块对人体-场景交互信息进行建模，以及采用场景-人体的联合位置编码以增强对人与场景交互关系的表达。实验表明，相较于现有的基线模型，HIS-GPT可以在Human-In-Scene任务上取得显著的性能提升。

8.Function-centric Bayesian Network for Zero-Shot Object Goal Navigation

作者：张思贤，余欣瑶，宋新航，王翼遥，蒋树强

内容简介：目标物体导航要求智能体在无全局地图的未知环境中导航至指定目标位置，这一任务依赖于智能体对物体与场景语义上下文关系的理解，以便智能体能够依据部分观测信息推理目标位置。物体的功能在其分类与命名过程中起着关键作用。分析物体在特定场景中的功能角色，有助于增强对其上下文关系的理解，从而提升目标推理能力。本文提出了一种用于开放目标导航任务的以功能为中心的贝叶斯网络（Function-centric Bayesian Network，FBN）。FBN旨在挖掘所观测到的物体单独地或与其他物体协同地承载的功能，以及观测场景中所蕴含的功能语义信息。FBN中的概率有向边刻画了物体-功能与场景-功能之间的关系，这些关系通过提出的CounterfactCoT方法对大型语言模型（LLMs）进行提示而获得。CounterfactCoT通过引导语言模型比较某条边的存在与否对上下文的影响，来判断边的存在性及其概率。结合贝叶斯推理机制，FBN能够估计各功能组的概率分布，并生成目标出现的概率地图，进而据此选择导航路径点。在MP3D和HM3D两个基准数据集上的实验表明，FBN能够有效建模物体、场景与功能之间的关系，并显著提升零样本目标导航的性能。

9.Learning on the Go: A Meta-learning Object Navigation Model

作者：秦笑容，宋新航，张思贤，余欣瑶，张鑫淼，蒋树强

目标导航任务要求智能体在未知环境中仅通过视觉观测定位目标对象。然而，现有方法大多在测试阶段使用固定模型，缺乏对环境动态变化的适应性，导致在新环境中的导航能力有限。为解决这一问题，本文提出了一种针对对象条件轨迹分布漂移的元学习机制，能够通过学习一个中心条件分布作为先验，有效提升模型对多样化环境的泛化能力。具体而言，该方法在不同环境中学习目标条件轨迹的共性模式，并在适应阶段对环境特定分布进行对齐，显著降低了适应时的搜索空间，实现了少量数据的快速更新。作者提出的Learning on the Go（LOG）框架可与传统导航方法无缝集成，使智能体在导航过程中实现实时的灵活学习。理论分析表明，学习中心分布能收敛更紧的泛化上界，实验结果在多个数据集上验证了该方法优于现有主流方法的性能，体现出对跨环境和跨模拟器导航任务的良好适应性。

10.Trial-Oriented Visual Rearrangement

作者：刘昱怡、宋新航、齐天亮、蒋树强

内容简介：归纳还原任务要求智能体首先探索并记忆环境的目标状态，而后在环境状态被打乱后，通过导航和交互将环境还原至最初记忆的状态。现有方法通过构建独立的显式场景图结构，在处理物体位移变化时取得了较好的性能，但难以统一处理物体的形态变化和存在性变化，其主要原因在于，位移、形态和存在性变化的判别空间高度异构，若将三种变化统一推理，会极大增加推理空间的复杂性，显著降低决策的置信度。若采用解耦方式处理，则需要为每种变化单独建模，导致每个模块复用率降低。为此，本文提出了一种具身试错驱动的视觉归纳还原框架（Trial-Oriented Visual Rearrangement，TOR），利用强具身思想对联合推理空间进行剪枝，从而找到更小的共享空间来处理各类变化。TOR 通过维护差异点云表示来捕捉环境变化，并借助试错模块和评估模块的交替运行将场景恢复至目标状态。实验结果表明，TOR 在恢复对象移动与外观变化方面均取得显著效果，并展现出在复杂多房间环境中的良好泛化能力。

11.Frequency-Aligned Knowledge Distillation for Lightweight Spatiotemporal Forecasting

作者：李雨奇，杨传广，曾瀚圣，董泽宇，安竹林，徐勇军，田英利，吴昊

内容简介：时空预测任务（如交通流量、燃烧动力学和天气预报）通常需要复杂的模型，但这些模型存在训练效率低和内存消耗高的问题。本文提出了一种轻量级框架——频谱解耦知识蒸馏（Spectral Decoupled Knowledge Distillation，简称SDKD），该框架将复杂教师模型中的多尺度时空表征迁移到更高效的轻量级学生网络中。教师模型采用编码器-潜在演化-解码器架构，其潜在演化模块通过卷积和Transformer（全局低频建模器）解耦高频细节与低频趋势。然而，多层卷积和反卷积结构导致训练速度慢且内存占用高。为解决这些问题，我们提出了一种频谱对齐知识蒸馏策略，从教师模型的潜在空间中提取多尺度频谱特征（包括高频和低频成分），以指导轻量级学生模型同时捕捉局部精细变化和全局演化模式。实验结果表明，SDKD显著提升了性能：在Navier-Stokes方程数据集上，均方误差（MSE）降低高达81.3%，平均绝对误差（MAE）降低52.3%。该框架在降低计算复杂度的同时，有效捕捉了高频变化和长期趋势。

12.Morph: A Motion-free Physics Optimization Framework for Human Motion Generation

作者：李卓*，罗明双*，侯瑞兵，赵鑫，刘浩，常虹，刘梓墨，李晨

内容简介：人体运动生成在数字人、人形机器人控制等领域具有关键作用。然而，当前许多运动生成方法忽视物理约束，常常导致在物理上不合理的运动，出现诸如浮空和脚步滑动等明显瑕疵。同时，利用噪声运动数据训练有效的运动物理优化器在很大程度上仍未得到探索。在本文中，我们提出了Morph，一种无运动的物理优化框架，它由一个运动生成器和一个运动物理细化模块组成，旨在不依赖昂贵的真实世界运动数据的情况下提高运动在物理上的合理性。具体而言，运动生成器负责提供大规模的合成噪声运动数据，而运动物理细化模块则利用这些合成数据在物理模拟器中学习一个运动模仿器，通过施加物理约束将噪声运动投影到物理上合理的空间。此外，我们引入了一个先验奖励模块，以增强物理优化过程的稳定性，并生成更平滑、更稳定的运动。这些经过物理细化的运动随后用于微调运动生成器，进一步提升其能力。这种协作训练范式使得运动生成器和运动物理细化模块之间能够相互增强，显著提高了在实际应用中的实用性和鲁棒性。在文本转运动和音乐转舞蹈生成任务上的实验表明，我们的框架在大幅提高运动物理合理性的同时，实现了最先进的运动质量。

END

了解实验室更多科研动态

敬请关注

关于我们

智能算法安全全国重点实验室是面向新时期国家重大需求，面向事关国家安全的重大任务而全新设立的中国科学院体系的全国重点实验室，目前在编人数约120人。实验室以智能算法安全治理和网络空间认知计算两大国家重大需求为牵引，布局智能算法安全基础理论与设施、智能算法风险监测评估、智能算法认知博弈、装备智能系统算法安全和大数据智能分析与对抗五个重点研究方向，解决智能算法的可信域判定、透明化监测、临界点调控等重大技术挑战，建立智能算法安全理论基础，形成算法安全评估与算法智能博弈技术体系，带动人工智能安全、大数据智能、社会认知计算等方面的基础研究和技术突破，建设成为智能算法安全国家战略任务科技主力军和前沿科技创新的国际引领者。

附件下载：

上一篇：【ACL2025|KDD2025】实验室多篇论文获国际顶级学术会议录用

下一篇：实验室5篇论文获SIGIR 2024录用