程学旗:智能算法安全的内涵、实践与思考
智能算法安全全国重点实验室2025年度“大模型安全评估与增强”暑期学校于8月10日成功举办。智能算法安全全国重点实验室主任程学旗研究员作了题目为《智能算法安全的内涵、实践与思考》的开学第一课。

当今世界正处在人工智能技术飞速迭代的时代。从深度学习的兴起,到预训练大模型的普及,再到具身智能、AI智能体等新概念的涌现,人工智能不仅在改变我们的数字生活——比如信息推荐、智能问答;更在重塑现实世界:工业制造的效率提升、无人系统的广泛应用、智能决策在各行各业的渗透,都让我们看到技术的巨大潜力。
甚至,人工智能正在改变创业形态。现在,4-5人的小团队就能依托大模型技术,面向全球提供AI应用服务。这背后,是数据与算力的基础设施化发展,让AI创新能快速落地。
但硬币总有两面。在技术爆发的同时,安全风险也日益凸显。

比如,推荐算法的偏见可能导致信息茧房、大数据杀熟等问题,甚至引发群体极化与社会矛盾;金融领域的算法决策失误,可能导致交易系统崩溃;AIGC生成的虚假信息快速传播已成为网络空间面临的新型安全威胁。
更长远来看,令人们更加担忧的是:当机器智能接近或超越人类,人工智能是否会威胁人类文明?人与机器共生的社会系统是否会因此失控?这些担忧并非空穴来风。2024年3月,联合国推动“安全可靠、值得信赖的AI系统”达成全球共识;上海世界人工智能大会上,“AI风险治理”成为高频议题。国内外学者、业界都在思考:如何在技术进步中守住安全底线?

为什么我们要聚焦智能算法安全开展研究?因为人工智能系统的核心是算法——它是智能的“大脑”。
传统算法有明确的逻辑和边界,但智能算法不同:它基于海量数据、知识和规则,从现象中学习规律,再用规律预测新现象。这个过程中,“不确定性”是关键:正是这种不确定性,让算法能突破有限观测,涌现出灵活性、适应性和自主性;但也正因如此,算法决策可能出现不可靠、不可预测的偏差。比如自动驾驶:它能处理复杂路口的交通路况,却也可能在简单场景下出现低级错误——这就是算法内生的不确定性导致的风险。

我们可以把智能算法安全问题分为三个层次,并总结为“TRC范式”——可信(Trustworthy)、可管(Regulatable)、可控(Controllable)。
1. 算法自身的内生安全:算法在有限场景下设计,却要在开放环境中决策,可能因未覆盖的情况出现误判,这是“可信”问题;
2. 人机交互的应用安全:比如平台算法的个性化推荐,在应用时如果监管不力可能演变成算法霸凌、信息茧房,这是“可管”问题;
3. 人机共生的系统安全:当数字人与真人、虚拟与现实深度融合,算法与人共生的系统可能引发社会分化甚至失控,这是“可控”问题。
当前研究中关注的鲁棒性、公平性、隐私保护、可解释性等,都属于这个框架下的具体问题,但目前,这些研究还缺乏系统性。

基于这些思考,2023年我们经中国科学院党组的批准,启动成立了“智能算法安全重点实验室”。我们的目标很明确:面向人工智能安全世界科技前沿和国家重大需求,攻克智能算法安全的研究难题。
理论层面:构建安全基础理论
实验室目前在探索,智能算法安全是否有完备的数学理论?是否能建立“人工智能安全可学习理论”?比如,图灵奖得主Hinton教授指出“AI的黑箱本质和缺乏解释性会限制发展”;数学家陶哲轩提到“AI依赖经验与算力,成功难复制、失败难解释”。这些都指向一个核心:没有坚实理论,安全就无从谈起。
技术层面:打造创新基础设施
实验室还希望从内而外构建实验环境,支撑重大任务落地。比如,实验室参与的国家算法专项治理,在网络沉迷、算法霸凌、数据隐私保护等问题上,从标准制定到技术方案,都积累了实践经验。
应用层面:解决实际问题
- 在内容安全领域,我们构建了从数据底座到模型开发的全链条安全体系,对抗虚假信息传播;
- 在社会治理领域,我们分析算法对舆论、价值观的影响,探索群体事件中的算法规律;
- 在重大风险防范领域(如公共安全、情报分析、系统性金融风险防范),我们构建了以决策为中心的大数据系统,减少算法失误导致的风险。

人工智能的发展与安全,是一体两面。没有安全,发展不可持续;保障好安全,本身就是在促进发展。
在未来我们希望:
- 建立国际公认的AI治理标准体系,让技术在统一、开放的框架下进步;
- 构建国家级的算法安全评估实验场——就像物理世界的风洞实验室,为算法安全提供“测试场”;
- 吸引更多人加入这个领域:无论是加入智能算法安全全国重点实验室,还是合作研究,我们都期待与各位一起,让人工智能真正成为“安全可靠、值得信赖”的技术。
【完整视频回放】:
http://klais.ict.ac.cn/news/sysxw/202508/t20250820_664005.html
附件下载: