人工智能对齐与欺骗: 问题概述

Words by: Isabella Duan, Saad Siddiqui, Sören Mindermann, Adam Gleave, Wei Xu, Chaochao Lu, Xudong Pan

Published: 18.09.2025

Share
- Twitter
- LinkedIn
- WeChat
- Copy
Cite
PDF

人工智能对齐与欺骗: 问题概述

Words by: Isabella Duan, Saad Siddiqui, Sören Mindermann, Adam Gleave, Wei Xu, Chaochao Lu, Xudong Pan

Share
- Twitter
- LinkedIn
- WeChat
- Copy
Cite
PDF

Abstract

本文旨在截至撰写时，对人工智能对齐与欺骗的核心概念及实证结果进行概览。本文并非覆盖所有人工智能安全与治理议题的全面综述，而是聚焦于与人类失去对先进人工智能系统控制这一风险（“失控风险”）相关的关键概念和研究结果。

本文的第一部分概述现有对齐方法（alignment）及其局限。第二部分讨论人工智能系统的欺骗行为及其实证证据，而这种欺骗能力正是导致不对齐的人工智能（misalignment，即遵循任何人都不希望的价值观）失控风险加剧的重要因素。本文的第三部分探讨了多个开放性研究方向与议题，有望缓解由具有欺骗性的、未对齐的人工智能系统带来的失控风险。

本文内容为《人工智能安全国际对话上海共识声明》，所提出的“确保高级人工智能系统的对齐与人类控制”的呼吁，以及“当今已有部分人工智能系统展现出削弱开发者安全与控制措施的能力与倾向”的强调，提供了背景支撑与补充说明。

本文指出，现有方法的任何组合都无法对未来人工智能系统的未对齐、欺骗或失控风险提供高度确定的保障。若要在把握人工智能前所未有机遇的同时避免潜在的灾难性后果，企业、政府与社会必须研发更加完善的安全防护措施，并确保其得到及时落实。

引用方式：Duan et al.,《人工智能对齐与欺骗：问题概述》，2025年9月， https://saif.org/research/primer-cn

Authors

Isabella Duan, Saad Siddiqui, Sören Mindermann, Adam Gleave, Wei Xu, Chaochao Lu, Xudong Pan