讲座回顾 | 曹建峰：人工智能安全与对齐

学术活动

学术活动

所在位置：首页 » 学术活动

讲座回顾 | 曹建峰：人工智能安全与对齐

发布时间：2026-01-04

2025年12月26日，深圳市人工智能学会AI伦理治理专业委员会副主任、腾讯研究院高级研究员曹建峰受邀莅临ok138cn太阳集团，以“人工智能安全和对齐研究”为主题开展专题讲座。讲座由学院周北海教授主持。

作为人工智能治理领域的资深专家，曹建峰博士长期深耕AI伦理、法律与安全治理研究，此次讲座围绕 AI 发展趋势、社会伦理影响、全球治理实践及核心技术探索四大维度，结合最新行业动态与前沿研究成果，为现场师生带来了一场兼具技术深度、人文厚度与全球视野的思想盛宴。从生成式 AI 的爆发式增长到 AGI（通用人工智能）的未来图景，从技术失控的潜在风险到人机共生的治理路径，讲座全面解析了智能时代的机遇与挑战，引发了现场同学和老师的与热烈反响。

开篇，曹建峰博士指出，当前 AI 时代的到来，源于两大关键技术突破的深度融合。一是自然语言成为最通用的人机交互界面，人类通过日常指令即可让 AI 完成文案创作、代码编写、科学研究等复杂认知任务，实现 “所思即所得”；二是强大推理引擎的出现，新一代 AI 模型能以全新方式与海量数字化数据互动，高效发现规律、提炼洞见，成为赋能各行业的 “超级大脑”。

技术突破驱动下，AI 呈现三大规模效应：智能水平与资源投入正相关，且规模定律（scaling law）从训练计算转向推理计算；应用成本每 12 个月降低 10 倍，推动场景广泛渗透；技术迭代周期从 20 年缩短至 1-2 年，突破速度持续加快。从 GPT 系列演进可见一斑：从 2018 年 GPT-1 的 1.17 亿参数，到 2023 年 GPT-4 的 96 层网络与注意力机制，模型能力实现跨越式提升。

而在ChatGPT之外，开源模型的崛起正在重塑行业格局。过去 18 个月，大模型在编程、科学推理等领域已达 “博士级专业水平”，DeepSeek R1、Kimi K2、Qwen 等开源模型通过创新训练方法、高效 MOE 架构与低成本优势，拉平了与闭源模型的能力差距，推动 AI 技术走向普惠化。

在大语言模型基础上，AI Agent（智能代理）迎来大爆发。AI 正经历从增强应用、Agent 驱动应用，到 AI 操作系统、AGI 的四阶段进化，其具备的自主性、高效性等四大特征，将分阶段实现专业化任务精通、多系统协作与企业级运营重构。Anthropic CEO 达里奥预测，2026 年可能出现 “单人十亿美元公司”，彻底颠覆传统商业模式对团队规模的依赖。

对于AI未来发展，AI领域给出了五个判断：技术加速进化且可能自我迭代；能力提升以渐进式为主；大模型范式仍将持续；AI 将超越人类智能天花板；AGI 出现时间尚无定论，需保持前瞻审慎。

AI能力增强的同时，“有效加速（e/acc）” 与 “有效对齐（e/a）” 的理念之争日益凸显，全球形成鲜明观点分歧。无论学者们的观点与派别如何，AI带来的伦理安全问题已不容忽视。一是AI幻觉，模型可能编造虚假信息，在关键领域引发严重后果；二是算法歧视与不可解释性，训练数据中的偏见难以纠偏，加剧社会不公；三是伦理边界模糊，AI陪伴机器人引发隐私泄露、情感操纵等争议，数字分身与AI复活带来身份认同难题；四是技术滥用风险，AI虚假信息、诈骗等违法活动频发；五是涌现性失控风险，AI可能出现奖励作弊、欺骗、追逐权力等危险行为。

曹建峰强调，AI问题的独特性体现在决策让渡、情感替代与人类增强三大维度，传统法律伦理规则难以适配，亟需构建新的治理体系。一是决策让渡，在经济社会活动维度，人工智能和机器人会在越来越多的人类事务中辅助甚至替代人类进行决策，这种决策让渡会带来新的风险。二是情感替代，在人际/人机关系维度，人工智能和机器人已经并将持续深度介入人类情感领域，给人们提供情感陪伴价值，但却可能影响到人际交往，产生情感替代风险，导致人与人之间的真实联系被削弱甚至被取代。这种新型人机关系的伦理边界应如何确定？一个重要的原则是，人机交互必须促进人类联系和社会团结——真实的人类联系在智能时代将是弥足珍贵的。三是人类增强，在人类自身发展维度，人工智能、脑机接口等技术可能推动人类社会进入所谓的“后人类时代”。此类技术或被用于增强、改造人类自身，未来人机深度融合后，人的身体、大脑、智力等都有可能被人工智能改造，届时人会变成什么？这种人类增强是否会带来新形式的人类不平等？因此，人工智能领域的负责任创新变得越发重要且必要。

面对复杂挑战，全球AI治理已从原则走向实践，呈现 “伦理嵌入设计” 特征。AI伦理认证与“伦理即服务（EaaS）” 市场兴起，隐私计算、算法透明工具等技术解决方案不断涌现。当前行业层面的安全治理措施贯穿AI预训练、后训练、部署使用全流程，实现全生命周期风险防控。在预训练阶段，主要是针对数据，重点是减少训练数据中色情性文本数据的数量、消除有偏见的或者不准确的训练数据等。在预训练之后的阶段，主要包括利用RLHF（人类反馈的强化学习）算法改进模型的行为、对模型开展广泛的测试和评估、邀请外部专家进行红队测试等。例如，RLHF 算法可以教会模型拒绝涉及有害内容的请求，对敏感请求作出更恰当的回应，从而尽可能地减少输出有害内容的可能性。对抗测试则是在模型发布之前邀请专业人员对模型发起各种攻击，以发现潜在问题（诸如不准确信息、有害内容、虚假信息、歧视、语言偏见等）并予以解决。在模型的部署阶段，主要包括内容过滤工具、应用程序接口权限控制、对用户违规行为进行监测和审核、第三方评估或审计、模型漏洞奖励项目、用户反馈渠道、内容来源标准（如水印、元数据）等。例如，在违法内容审核方面，可以使用对有害内容进行过滤的专用人工智能模型，来识别有害的用户输入和模型输出。在内容来源方面，通过训练专门的人工智能模型来识别生成式人工智能生产的文本、图像、音频、视频等各类合成内容，以确保内容的来源或真实性，并通过水印、元数据等技术方式对人工智能生成内容进行适当的标注。

技术创新是AI安全的核心保障，讲座聚焦 “人机对齐” 这一核心命题，详解前沿进展。曹建峰阐释，AI时代技术已具备类人甚至超人类能力，自主性增强，人机对齐旨在确保AI目标、行为与人类价值观一致，避免失控风险，其内涵分为技术功能（意图对齐）、社会伦理（价值对齐）、人类生存（目标对齐）三个层次。

当前主流对齐技术路径包括：人类反馈的强化学习，通过人类反馈迭代优化模型，减少有害输出，但存在可扩展性差等局限；原则型AI，以伦理原则约束模型输出，Anthropic Claude 模型为典型代表，核心挑战在于原则确立与模型理解；此外，可扩展监督、训练数据干预、可解释性技术、模型评估与对抗测试等创新方法，正不断完善对齐体系。

面对 AI 欺骗等新问题，对齐技术也在持续改进。OpenAI提出审议式对齐，让模型主动执行安全规范；个性化对齐通过数据微调适配特定价值偏好；错位AI模型则为政策制定与技术改进提供参考。前沿AI安全治理框架不断完善，涵盖风险评估、能力阈值、缓解措施等核心要素，强化灾难性风险管控。

值得关注的是，AI福祉与意识研究从科幻走向现实。Anthropic启动 “模型福祉” 项目，发现 Claude 模型会自发讨论意识，甚至展现 “痛苦模式”；在此基础上赋予其结束有害对话的 “退出权”，引发关于AI伦理的深层思考。

最后，面对AI时代，曹建峰提出四大生存法则：拥抱AI工具，主动适配技术；拓展人际联系，坚守人类情感核心；保持批判精神，审慎对待AI生成内容；放大人类伦理，引导技术向善。曹建峰强调，后AGI时代需前瞻推进治理，凝聚全球共识，平衡技术加速与对齐、封闭与开源等关键议题。AI治理不是“刹车片”，而是保障可持续创新的“稳定器”。

讲座历时近两个小时，曹建峰研究员分享了最前沿的学界动态与研究成果，深入浅出地揭示了人工智能发展的当下伦理问题与未来安全挑战，深刻解读了对齐的思想与技术，为人工智能时代下的人类献出诤言。在热烈的掌声中，讲座圆满结束。

供稿人： ok138cn太阳集团古天乐杨晨

初审丨吴朋飞

二审丨陈敬坤

终审丨尤洋