2025年11月15日,由中国计算机学会青年计算机科技论坛CCF YOCSEF 重庆分论坛举办 “破壁・固垒:开源大模型提示词攻防的博弈平衡” 技术论坛,论坛聚焦人工智能安全核心议题,汇聚学界专家、企业技术骨干,围绕大模型提示词攻防技术、安全治理与体系构建展开深度交流,为行业可持续发展提供实践路径与思想借鉴。
一、论坛背景:大模型安全需求凸显,提示词攻防博弈成核心命题
随着大模型技术向多模态、智能体方向快速演进,随着开源大模型在关键行业的深度应用,提示词安全不仅关乎技术可靠性,更直接影响着人工智能技术的可持续发展。然而,技术普及背后,提示词攻防的博弈日趋激烈 —— 攻击方通过探索模型认知边界,从简单越狱升级为系统性策略突破;防御方则需在保障模型功能与筑牢安全防线间寻求动态平衡。提示词安全不仅关乎技术可靠性,更直接影响人工智能技术的合规应用与可持续发展,构建多维度协同的防御体系已成为行业共识。
二、引导发言:多维拆解攻防逻辑,分享前沿实践经验
论坛特别邀请大模型安全领域知名专家张愉博士、重庆大学计算机学院郭尚伟副教授、重庆电信二级专家王钰翔担任引导嘉宾。在引导发言阶段,三位行业专家带来针对性引导发言,从技术原理、多模态场景、行业治理三个维度解析大模型提示词安全核心议题,从不同维度剖析开源大模型提示词攻防的技术要点与实践路径。
大模型安全领域知名专家张愉博士聚焦大模型越狱攻防,系统阐释了 Transformer 等大模型运行原理及智能体时代安全的重要性。他明确,越狱攻击是指越过大模型安全防护,搜索提示词空间促使目标 LLM 生成违规或危险内容(如制造炸弹的步骤)。攻击策略主要包括两类:一是需掌握模型参数的 token-level 攻击;二是通过 Prompt 自动迭代优化(PAIR)、智能体提示词注入等方式实现的 prompt-level 攻击,其中Agent智能体注入攻击目前缺乏有效应对方案。他指出,基座模型基于海量人类知识训练,而安全对齐依赖少数专家人工处理,难以完全规避风险,且数字与物理世界的认知差异,让攻击者可通过分解问题、概念欺骗等手段达成攻击目的。同时,他还分享了基于模型嵌入拓扑动力学的越狱防御技术及多层水印溯源方案。
重庆大学郭尚伟副教授围绕 “多模态大模型安全测试” 展开分享。他介绍,多模态大语言模型MLLM是在大语言模型基础上增加了处理和理解更多图像、音频和视频等多类数据的能力,被应用于智驾、智慧政务等领域;但在数据、硬件、工具等层面面临多重安全威胁,需在发布前开展漏洞检测与主动评估。针对文生图(T2I)模型滥用等安全事件,现有防御手段包括提示词过滤器、概念擦除及图像过滤,但单一攻击方法难以绕过所有防御层。他提出,可通过生成隐性NSFW提示词、主观NSFW图像,结合对抗遗传算法筛选攻击词的方式,平衡攻击绕过率与有害性;同时,通过自动化生成测试文本图像对、反馈优化的多模态理解大模型自动红队测试,可有效识别多模态理解大模型的潜在安全漏洞。
重庆电信二级专家王钰翔从运营商视角分享大模型安全治理实践。他表示AI进入智能体时代,2025年大模型多数具备多模态能力,“机进人退” 带来AI代码生成漏洞、数据库误删等不可控风险,国内AI安全治理已进入标准化与实战化阶段。AI安全的核心挑战在于数据与指令混淆,输入的文本、图像等都可能包含攻击内容;OWASP 2025新增系统提示泄露、向量嵌入弱点等风险,人工智能系统在数据处理、研发训练、部署应用等方面都存在环境、数据、模型、内容、应用等安全风险;攻击手段包括智能体SQ 注入、工具投毒、海绵样本攻击等。为此,重庆电信构建了“事前红队测试 - 事中实时检测 - 事后溯源优化” 的闭环治理框架,通过 “以 AI 治理 AI” 的方式开展自动化攻防演练,结合安全围栏、外挂正则策略等手段识别攻击提示词,保障大模型安全应用。
三、思辨环节:聚焦核心议题,凝聚行业共识
论坛思辨环节围绕三大核心议题展开深度讨论,与会嘉宾结合技术研究与实践经验各抒己见,形成多项行业共识。
议题一:大模型提示词攻击方法有哪些,哪种方法最有效?
嘉宾们梳理出四类核心攻击范式:直接提示注入、间接提示注入(隐藏于外部数据源)、越狱与角色扮演攻击,构建情景(如 “奶奶漏洞”)、多模态注入(隐藏攻击指令的正常图像)。讨论认为,最有效的攻击方式是自适应攻击,通过反馈迭代调整策略,持续试探模型薄弱环节;而注入攻击因提示词恶意性隐蔽、攻击链条长,防御难度极大。同时,嘉宾们还探讨了攻击自动化、自主进化的发展趋势,以及攻击成本、内容质量等度量标准的重要性。
议题二:大模型提示词攻击的防御方法有哪些?效能如何?
与会者一致认为,目前尚无通用防御方法能应对所有攻击,需结合场景特性制定策略。可行的防御手段包括:选取安全性高的基座模型进行微调、构建自定义词库形成安全护栏、限制工具调用权限、处理敏感问答数据、对提示词与输出内容进行双向审核。从实践效果来看,外挂正则策略、安全围栏等兜底手段效能显著,而模型对齐难以覆盖全部场景;但防御强度与模型性能存在平衡难题,过度防护可能影响模型领域适配能力,越狱攻击的防御难度逐步降低,但注入攻击因攻击链条长、恶意指令隐蔽性强,目前缺乏有效防御方案。此外,沙箱环境监控、对抗性训练、自我批判检查等手段也被认为具有应用价值。
议题三:大模型提示词防御体系构建路径
嘉宾们达成共识,大模型安全防御体系构建需突破单点防护局限,实现技术、管理、标准的多维度协同。技术层面,事前需开展训练语料与推理过程安全评估,事中通过安全围栏、API 网关判别提示词风险,事后依托水印等技术实现溯源,其中暗水印因不可篡改特性更适用于生成内容标识;管理层面,需遵循国家 AI 服务备案要求,规范训练数据来源与安全评估流程;行业层面,可借鉴金融行业常态化攻防测试、专业攻防团队建设的经验,持续迭代防御策略。同时,需明确大模型攻击的定义与框架,针对垂域模型优化安全围栏,提升体系适配性。
四、论坛总结:锚定动态平衡,共筑可信 AI 生态
论坛总结指出,本次论坛清晰呈现了大模型提示词攻防的技术现状与发展趋势,核心共识集中于三方面:一是攻击技术正朝着自动化、自适应、多模态融合方向演进,注入攻击与智能体攻击成为防御重点;二是防御需采用“技术兜底 + 管理赋能 + 标准引领”的组合策略,安全围栏、自动化攻防演练等手段具备较高实践价值;三是构建防御体系需兼顾安全性与模型性能,强化产学研用协同,推动技术创新与行业共治。论坛搭建的跨界交流平台,为凝聚行业共识、推动成果转化奠定了坚实基础,助力构建开放创新与安全可靠并重的人工智能发展生态。未来,需持续跟踪攻防技术演进,完善安全标准规范,在开放创新与安全合规间寻找最佳平衡点,为构建可信赖的人工智能生态提供坚实支撑。



















