研究进展

智能算法安全全国重点实验室11篇论文获NeurIPS 2025 录用

发布时间：2025-09-30【字体：大中小】

2025年9月，全球最负盛名的人工智能顶级国际学术会议NeurIPS 公布了论文接收结果，智能算法安全全国重点实验室共11篇论文获得录用。

NeurIPS 全称 Annual Conference on Neural Information Processing Systems，与 ICML、ICLR 并称为人工智能领域“三大顶级会议”。该会议在中国计算机学会推荐会议列表中列为 A 类会议，在 CORE Conference Ranking 中被评为 A* 级别，其 H5-index 高达 330 以上，长期稳居全球人工智能与机器学习国际学术会议影响力之首。NeurIPS 的投稿数量和竞争激烈程度屡创新高，2025年在主会有效投稿量突破21575篇情况下，录用率不足 24.52%，体现出其极高的学术认可度与难度。

论文简介

1.【论文题目】KnowMol: Advancing Molecular Large Language Models with Multi-Level Chemical Knowledge

【作者】杨再飞, 常虹, 侯瑞兵, 山世光, 陈熙霖

【GitHub】https://github.com/yzf-code/KnowMol

【Huggingface】 https://hf.co/datasets/yzf1102/KnowMol-100K

【论文简介】分子大语言模型因其在分子应用领域的巨大潜力而受到广泛关注。然而，由于预训练过程中文本描述不足和分子表征策略存在缺陷，当前的大模型在分子理解方面面临显著局限。为应对这些挑战，我们推出了KnowMol-100K大规模数据集，该数据集包含多个层级的10万条细粒度分子标注，有效弥合了分子结构与文本描述之间的差距。此外，我们提出了具有多层次丰富化学信息的分子表征方法，成功解决了现有分子表征策略的不足。基于这些创新，我们开发了KnowMol——一种最先进的多模态分子大语言模型。大量实验表明，KnowMol在分子理解与生成任务中均展现出卓越性能。

2.【论文题目】un²CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP

【论文链接】https://arxiv.org/abs/2505.24517

【代码链接】 https://github.com/LiYinqi/un2CLIP

【作者】李胤祺, 赵家和, 常虹, 侯瑞兵, 山世光, 陈熙霖

【论文简介】对比语言-图像预训练模型（Contrastive Language-Image Pre-training，简称 CLIP）已经成为视觉与多模态任务中的基础模型，广泛应用于多个领域。然而，近期的研究指出，CLIP 在区分图像中的细微差异方面表现不足，在密集预测和视觉主导的多模态任务中性能也不尽理想。因此，本工作旨在改进现有的 CLIP 模型，使其尽可能多地捕捉图像中的视觉细节。我们发现，一类特定的生成模型——unCLIP，为实现这一目标提供了合适的框架。如图（a）所示，unCLIP 是在 CLIP 图像嵌入的条件下训练的图像生成器，换句话说，它反转了 CLIP 的图像编码器。与 CLIP 这类判别模型相比，生成模型在捕捉图像细节方面具有优势，因为它们被训练去学习图像的数据分布。此外，unCLIP 的条件输入空间与 CLIP 原始的图文嵌入空间保持一致。因此，我们提出反转 unCLIP（称为 un²CLIP）以改进 CLIP，如图（c）所示。通过这种方式，改进后的图像编码器不仅继承了 unCLIP 捕捉视觉细节的能力，同时也保持了与原始文本编码器的对齐。我们在多个 CLIP 相关任务上对改进后的模型进行了评估，包括具有挑战性的 MMVP-VLM 基准、涉及密集预测的开放词表图像分割任务、以及多模态大语言模型任务。实验结果表明，un²CLIP 显著提升了原始 CLIP 模型及其他改进方法的性能。

3.【论文题目】ProtInvTree: Deliberate Protein Inverse Folding with Reward-guided Tree Search

【作者】刘梦迪, 成晓雪, 高张阳, 常虹, 谭铖, 山世光, 陈熙霖

【文章简介】设计能够折叠为目标三维结构的蛋白质序列（即蛋白质逆折叠）是蛋白质工程中的核心挑战。尽管深度学习方法在恢复天然序列方面已取得显著进展，但常常忽视问题的“一对多”特性：多个不同的序列都可能折叠成相同的结构。因此，亟需一种既能保证结构一致性，又能兼顾序列多样性的生成模型。为此，我们提出 ProtInvTree——首个面向蛋白质逆折叠的奖励引导树搜索框架。ProtInvTree 将序列生成重新建模为一种逐步的、深思熟虑的决策过程，使模型能够通过自我评估、前瞻与回溯探索多条设计路径并筛选潜在候选。我们提出两阶段的“聚焦–落地”动作机制，将位置选择与残基生成解耦；并引入跳跃去噪策略，以高效评估中间状态而无需完整展开。依托预训练蛋白语言模型，ProtInvTree 在无需重新训练的前提下支持灵活的测试时扩展，可根据需求增加搜索深度与广度。实验证明，ProtInvTree 在多个基准任务上均优于最新方法，能够生成结构一致且多样化的序列，包括那些与天然真实序列差异较大的设计。

4.【论文题目】Revisiting Logit Distributions for Reliable Out-of-Distribution Detection

【作者】梁佳宸, 侯瑞兵, 胡民阳, 常虹, 山世光, 陈熙霖

【文章简介】分布外检测（OOD）对于确保深度学习模型在开放世界应用中的可靠性至关重要。虽然后处理方法因其效率和部署的便捷性而受到青睐，但现有方法往往未能充分利用模型 logits 空间中嵌入的丰富信息。在本文中，我们提出了 LogitGap，这是一种新颖的后处理 OOD 检测方法，它明确地利用最大 logits 与其余 logits 之间的关系，以增强分布内（ID）和分布外样本之间的可分性。为了进一步提高其有效性，我们通过关注 logits 空间中更紧凑且信息量更大的子集来细化 LogitGap。具体来说，我们引入了一种无需训练的策略，该策略可以自动识别用于评分的最具信息量的 logits。我们提供了理论分析和实证证据来验证我们方法的有效性。在视觉-语言和视觉模型上的大量实验表明，LogitGap 在各种 OOD 检测场景和基准测试中始终达到最先进的性能。

5.【论文题目】Selective Learning for Deep Time Series Forecasting

【作者】付屹松，邵泽志，余澄庆，李雨杰，安竹林，王琦，徐勇军，王飞

【代码链接】https://github.com/GestaltCogTeam/selective-learning

【内容简介】深度学习凭借其捕捉复杂时间模式的能力，在时间序列预测领域取得了显著进展。然而，由于时间序列对噪声和异常具有固有的敏感性，深度模型容易出现严重的过拟合问题。当前主流的深度学习范式通过均方误差（MSE）损失函数统一优化所有时间步，对不确定和异常时间步不加区分地进行学习，最终导致过拟合。为解决这一问题，我们提出了一种新颖的选择性学习策略用于深度时间序列预测。具体而言，该策略通过筛选整体时间步的子集来计算优化过程中的MSE损失，引导模型聚焦于可泛化的时间步，同时忽略不可泛化的时间步。我们的框架引入了双掩码机制：1）利用残差异熵的不确定性掩码过滤不确定时间步；2）采用残差下界估计的异常掩码排除异常时间步。在八个真实世界数据集上的大量实验表明，选择性学习能显著提升主流先进深度模型的预测性能——其中Informer的MSE降低37.4%，TimesNet降低8.4%，iTransformer降低6.5%。

6.【论文题目】On the Integration of Spatial-Temporal Knowledge: A Lightweight Approach to Atmospheric Time Series Forecasting

【作者】付屹松，王飞，邵泽志，刁博宇，吴琳，安竹林，余澄庆，李雨杰，徐勇军

【代码链接】https://github.com/GestaltCogTeam/STELLA

【内容简介】Transformer模型因其捕捉全局时空关联的能力，在大气时间序列预测（ATSF）领域备受关注。然而，其复杂的架构导致参数量过大且训练时间过长，限制了其在大规模预测中的应用。本文从大气动力学的理论视角重新审视ATSF，并揭示了一个关键发现：即使没有注意力机制，时空位置嵌入（STPE）本身也能固有地建模时空相关性。其有效性源于对地理坐标与时间特征的整合，这些要素与大气动力学存在内在关联。基于此，我们提出了STELLA——一种面向ASTF的时空知识嵌入轻量化模型，仅使用STPE和多层感知机（MLP）架构替代Transformer层。STELLA仅需1万参数和1小时训练时间，便在五个数据集上实现了优于其他先进方法的性能。本文强调了时空知识整合相较于复杂架构的有效性，为ATSF研究提供了新的思路。

7.【论文题目】SMARTraj2: A Stable Multi-City Adaptive Method for Multi-View Spatio-Temporal Trajectory Representation Learning

【作者】钱塘文，李浚禾，陈亦乐，丛高，邵泽志，张俊，孙涛，王飞，徐勇军

【代码链接】https://github.com/GestaltCogTeam/SMARTraj

【内容简介】时空轨迹表示学习在交通系统、城市规划和环境监测等城市应用中起着至关重要的作用。现有方法可分为单视角与多视角两类，其中多视角方法通过整合多元时空数据能提供更丰富的轨迹表征。然而，由于多城市结构异质性（体现为不同城市在路网结构、网格布局和交通规则等方面的差异）以及加剧的跷跷板现象（优化某一城市、视角或任务时可能导致其他场景性能下降），这些方法往往难以泛化到多样化的城市场景。这些挑战阻碍了轨迹学习模型在多城市间的部署，限制了其实际应用价值。为此，我们提出SMARTraj²——一种新颖的稳定多城市自适应多视角时空轨迹表示学习方法。具体而言，我们引入特征解耦模块来分离域不变特征与域特定特征，并采用个性化门控机制动态稳定不同视角和任务的贡献。该方法在保持多下游任务强劲性能的同时，实现了跨异质城市场景的卓越泛化能力。在基准数据集上的大量实验表明，SMARTraj²能有效增强跨城市泛化性能，其表现优于现有最先进方法。

8.【论文题目】LightFair: Towards an Efficient Alternative for Fair T2I Diffusion via Debiasing Pre-trained Text Encoders

【作者】韩博宇，许倩倩，包世龙，杨智勇，资康莉，黄庆明

【内容简介】当前文生图扩散模型普遍存在生成结果分布失衡与潜在偏见。本文提出轻量化方法LightFair，以实现公平生成并针对文本编码器带来的不良影响加以缓解。现有方法通常要么耦合扩散模型的不同模块进行全参数训练，要么依赖辅助网络进行校正。这些方法不仅训练和采样开销巨大，而且效果有限。鉴于文生图扩散模型由多个组件构成，其中文本编码器是最易微调且位于前端的核心模块，本文选择通过微调文本嵌入来降低偏见。验证这一思路时，我们发现文本编码器输出的中性嵌入在CLIP空间中相对于不同属性的图像嵌入存在显著偏斜。同时，噪声预测网络会进一步放大这种不平衡。针对这一问题，我们提出协同距离约束去偏策略，在无需额外参考的情况下平衡嵌入间距离，从而提升公平性。然而，仅削弱偏见可能会影响原始生成质量。为此，本文进一步提出两阶段文本引导采样策略，通过精确控制去偏文本编码器在生成过程中的介入时机，实现公平性与生成效果的平衡。大量实验结果表明，LightFair兼具高效与高性能。特别是在Stable Diffusion v1.5上，仅需四分之一的训练开销即可达到当前最优的去偏效果，并几乎不增加采样负担。

9.【论文题目】Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space

【论文链接】https://arxiv.org/abs/2505.13181

【代码链接】https://github.com/ictnlp/SLED-TTS

【作者】Zhengrui Ma, Yang Feng*, Chenze Shao, Fandong Meng, Jie Zhou, Min Zhang

【内容简介】我们提出了一种新的语音语言建模方法 SLED。它先把语音波形编码成一串连续的潜在表示，再用能量距离（energy distance）作为目标进行自回归建模。能量距离能够通过对比模拟样本与目标样本，给出分布差异的解析度量，从而高效地学习底层的连续自回归分布。得益于不再依赖残差向量量化（RVQ），SLED 避免了离散化误差，也省去了许多现有语音语言模型常见的繁复分层结构。整体流程因此更简洁，同时又能保留语音信息的丰富性，并维持推理效率。实验表明，SLED 在零样本和流式语音合成上都取得了出色表现，显示出向通用型语音语言模型扩展的潜力。

10.【论文题目】FastLongSpeech: Enhancing Large Speech-Language Models for Efficient Long-Speech Processing

【论文链接】 https://arxiv.org/abs/2507.14815

【代码链接】https://github.com/ictnlp/FastLongSpeech.git

【作者】Shoutao Guo, Shaolei Zhang, Qingkai Fang, Zhengrui Ma, Min Zhang, Yang Feng*

【内容简介】大型语言模型（LLMs）的快速发展推动了语音大模型（LSLMs）的显著进步，增强了其在语音理解和语音生成方面的能力。现有的 LSLMs 往往侧重于提升语音生成能力或解决多样化的短语音任务，但对长语音的高效处理仍然是一个关键却尚未被充分探索的挑战。这一缺口主要源于长语音训练数据集的稀缺，以及处理长序列所需的高计算成本。为克服这些限制，我们提出了 FastLongSpeech，一种旨在扩展 LSLM 能力、实现高效长语音处理的新型框架，而无需依赖专门的长语音训练数据。FastLongSpeech 融合了一种迭代压缩策略，可将过长的语音序列压缩至可管理的长度。为了使 LSLMs 适应长语音输入，该框架引入了一种动态压缩训练方法，使模型在不同压缩比下接触短语音序列，从而将 LSLMs 的能力迁移到长语音任务中。此外，我们构建了一个长语音理解基准测试 LongSpeech-Eval，用于评估 LSLMs 的长语音处理能力。实验结果表明，我们的方法在长语音与短语音任务中均表现出强劲性能，并显著提升了推理效率。

11.【论文题目】DETree:DEtecting Human-AI Collaborative Texts via Tree-Structured Hierarchical Representation Learning

【作者】何永鑫，章珊，曹逸轩，马雷，罗平

【代码链接】https://github.com/heyongxin233/DETree

【内容简介】检测AI参与生成的文本，对于遏制虚假信息、抄袭行为以及学术不端具有重要意义。AI参与生成包括多种协作形式：例如AI初次生成后由人类进行润色，人类写作后交由AI修饰，以及由一个AI生成的文本再被其他AI模型修改等。在创作过程中可能涉及多种不同的，甚至全新的AI模型，使得生成文本的特征更为复杂，从而增加了检测的难度。现有方法对不同创作方式的建模较为粗略，通常采用二分类范式（纯人类文本vs.含AI参与生成文本），或多分类范式，将人机协作文本单独视为区别于纯人类写作文本和纯AI生成文本的新类别。我们的研究发现，由不同创作方式所生成的文本在表征空间中呈现出潜在的聚类关系。基于这一观察，我们提出 DETree：一种将不同创作方式生成的文本之间的关系启发式地建模为层次亲和树结构的方法，并进一步设计了专门的损失函数，以实现文本表征与该层次结构的对齐。为支撑这一框架，我们构建了 RealBench —— 一个涵盖多种人机协作模式的综合性混合文本基准数据集。实验结果显示，DETree在混合文本检测任务中相较于现有方法取得了更优的性能，并在分布外场景中展现出更强的鲁棒性与泛化能力，尤其在小样本条件下表现突出。这一结果进一步表明，基于训练的方法在应对分布外检测任务方面的有效性与发展潜力。

附件下载：

上一篇：智能算法安全全国重点实验室多篇论文获国际顶级学术会议录用

下一篇：程学旗：智能算法安全的内涵、实践与思考