CCF YOCSEF西安举办“矛与盾的对话：共筑大模型安全防火墙”技术论坛，共探大模型攻防平衡范式 - 论坛

2025年初，全球首例利用ChatGPT策划的恐怖袭击事件震惊世界，引发国际社会对人工智能安全问题的持续关注。针对这一热点问题，CCF YOCSEF西安于2025年4月27日在西安曲江惠宾苑宾馆举办“矛与盾的对话：共筑大模型安全防火墙”技术论坛。本次论坛由CCF YOCSEF西安AC委员崔禾磊和CCF YOCSEF西安副主席童小敏共同担任执行主席，邀请了来自香港城市大学、浙江大学、南京信息工程大学、中科院信工所、西安交通大学等国内著名高校和科研院所的专家学者，以及来自阿里云、华为、深信服、汇丰科技、四叶草安全等企业嘉宾齐聚一堂，共同就大模型安全攻防这一主题展开探讨和思辨。

图1 来自各高校及企业的嘉宾齐聚一堂

【引导发言引领前沿视角技术发展启迪模型攻防】

在引导发言环节，国家级青年人才、青橙奖获得者、西安交通大学蔺琛皓教授首先作了题为“AI大模型的安全可信——从小模型到大模型到具身智能”的报告。蔺琛皓指出，随着人工智能的飞速发展，人工智能技术引发了各类安全事件，可信可控的人工智能是大家共同的愿景。为实现安全可信的AI大模型，琛皓从机密性、完整性和可用性三个方面出发，提出针对性的解决方案，分别对应隐私泄露、产权侵犯、对抗攻防、后门操纵、内容可鉴可信和效用公平等问题。琛皓建议从小模型出发，构建安全可信大模型，最终构造可信可控的具身智能体。

图2 西安交通大学蔺琛皓作引导发言

接着，阿里云安全解决方案架构师、西区负责人张俊杰作了题为“大模型场景遇到的安全风险及应对方案”的报告，从大模型使用与运营方的角度阐述了大模型在基础设施层、模型层和应用层三个层面所面临的安全风险与挑战。针对大模型业务云上安全风险，张俊杰提出了十大场景以及对应的防护方案，在一定程度上解决了包括业务不可用、数据安全、外部攻击、安全运维等风险问题，实现了特定场景下的大模型安全防御。

图3 阿里云安全张俊杰作引导发言

浙江大学博士后刘建伟作了题为“物极必反——大模型如何应对物理世界安全挑战”的报告，从物理攻击的角度阐述了大模型存在的安全风险。他提到，大模型复杂的决策边界和多样化的输入可能导致其更容易受到攻击；由于物理世界的开放性，当大模型与物理世界交互时，容易被攻击者乘虚而入，产生安全威胁。对此，建伟从物理层信号注入、构建恶意数据集、捕捉侧信道电磁泄漏几个方面阐述了物理层能够对大模型展开的对抗攻击、后门攻击和隐私泄露攻击，为大模型攻防提供了新的角度和思考。

图4 浙江大学刘建伟作引导发言

香港城市大学博士后郑翔作了题为“基于强化微调的大模型攻防技术研究”的报告，从大模型强化微调的方面提供了新的思路。他提出了多种强化微调大模型的技术场景，包括大模型审计、蓝队防御等，为大模型的红蓝对抗提供了前沿的技术理论与思考范式。

图5 香港城市大学郑翔作引导发言

【思辨讨论促进深度交锋多维思考探讨攻防平衡】

在思辨环节，与会嘉宾围绕“千里之堤”能否“溃于蚁穴”、“魔高一尺”还是“道高一丈”、“孤岛围城”怎连“万里长城”三个议题展开思辨，积极发表了自己的观点和见解。

南京信息工程大学计算机学院、网络空间安全学院院长付章杰教授首先针对第一个议题展开引导发言，即：“千里之堤”能否“溃于蚁穴”？大模型防火墙是否容易被一个点攻破，存在哪些攻击可能一举攻破大模型防火墙？付章杰指出，大模型安全可以分成四个阶段，输入阶段、训练推理阶段、输出阶段和本地化轻量化部署阶段。在这四个阶段中均可能存在安全风险。现有的大模型还未对上述安全问题形成固有标准，仅靠某一点是很难使得具有复杂范式的大模型瘫痪的，但若有目的地系统性地针对某一个场景进行攻击，则通过“小小蚁穴”使得“千里之堤”崩溃仍然是有可能的。

图6 思辨嘉宾付章杰作引导发言

西北大学许鹏飞、南方科技大学牛建宇、西安交通大学任雪斌、香港城市大学郑翔、浙江大学刘建伟等均针对该问题发表了自己的看法。大家普遍认为，攻击方法往往不具备通用性，需要针对模型、场景进行专门设计。但现在也存在一些攻击方式，通过设计自适应的攻击策略，或设计物理层侧信道攻击策略，则可能能够实现普适性的攻击。

图7 与会嘉宾围绕辩题一展开思辨

针对第二个议题，即：“魔高一尺”还是“道高一丈”？大模型安全攻击是否真实与防御是否有效，攻击更厉害？还是防御更有效。西北大学信息学院、西安市先进计算与软件安全重点实验室主任汤战勇教授首先作了引导发言。他指出，攻防在安全领域是最具探讨价值的问题，从大模型的发展历程来看，攻击往往领先防御半步。在实施攻击时，只需找到一个突破口即可，而防御工作则需构建一个全面的防线。难以断言攻击更为强大，但可以肯定的是，攻击本身所带来的社会影响更为深远。我们应从攻击中汲取经验，以提高防御的有效性，使攻防的演变成为动态的过程，让“魔高一丈”在特定时空范围内成为暂时的、可控的现象。

图8 思辨嘉宾汤战勇作引导发言

香港城市大学郑翔、西安交通大学任雪斌、中科院信工所吴槟、西安工程大学杨旭东、汇丰科技贾文杰、阿里云张俊杰、CCF YOCSEF太原候任主席张陆钊等人围绕该问题发表了自己的看法。大家提到，众多学术论文中所描述的攻击行为在现实世界中可能缺乏真实性和可操作性。现实中，众多企业倾向于采用诸如关键词过滤等简易方法来实现特定场景下的防御。此外，攻击与防御均非无限成本投入的活动，若攻击无法带来显著利益，攻击者亦不会投入巨额成本。随着科技的进步，防御侧的研究者也会通过对攻击方式的追踪研究来增强防御的技术，从而在一定的范围内控制攻击造成的危害性。

图9 与会嘉宾围绕辩题二展开思辨

针对第三个议题，即：“孤岛围城”怎连“万里长城”？大模型攻防一体，还是壁垒分明？矛与盾能否协同共建机制？西安交通大学任雪斌首先作了引导发言。他指出，在现实世界中，攻击与防御类似于“军备竞赛”，然而从长远视角来看，攻击与防御将如同人类免疫系统与病毒之间的相互作用，通过协同训练最终达到一种“免疫平衡”。尽管如此，协同共建机制的实现仍面临诸多挑战：首先，从技术层面而言，攻防之间的动态平衡可能因某项技术的显著进步而被打破；其次，从信息共享的角度来看，协同机制的建立依赖于知识共享，若存在信息不对称，攻击方可能获得优势；再次，从伦理层面考虑，攻击者与防御者之间的关系类似于“无间道”，双方需不断尝试技术突破，但在此过程中缺乏具有价值判断能力的“法官”；最后，未来是否可能出现具有强大能力的攻防“AlphaGo”，以及人类是否能够完全信任这样强大的攻防机器人，这些问题仍悬而未决。综上所述，尽管攻防双方有可能形成类似人类免疫系统的动态平衡，但在具体实现过程中却遭遇了多重挑战。

图10 思辨嘉宾任雪斌作引导发言

西北大学汤战勇、中科院信工所吴槟、汇丰科技贾文杰、西北大学许鹏飞、西安工程大学杨旭东以及华为张云鹏等与会嘉宾，就相关议题阐述了各自的见解。他们一致认为，攻击与防御技术的发展是通过相互学习而共同进步的。然而，若缺乏适当的沟通机制，将导致严重的信息不对称，进而破坏协同共建的愿景。此外，随着技术的不断演进，是否存在类似非对称加密技术的突破性创新，有可能重塑整个攻防格局。

图11 与会嘉宾围绕辩题三展开思辨

【推进矛与盾均衡发展共筑大模型防火墙】

在本次论坛的尾声，执行主席崔禾磊与童小敏进行了总结性陈述。他们指出，尽管当前大型模型存在诸多安全挑战，并且尚未形成一套标准化、系统化的应对措施，但随着技术的不断进步，通过攻防双方的共同努力与合作，以及技术与知识的交流与共享，我们有望迎来更加健壮、安全、可信的大型模型。

论坛结束之际，CCF YOCSEF西安候任主席许鹏飞发表了总结性讲话。他强调，众多议题的深入探讨回应了本次论坛的核心议题，激发了广泛的思考，并促进了对大型模型安全问题的关注。展望未来，CCF YOCSEF西安将策划更多与大型模型安全相关的议题，并热忱邀请更多人士参与其中。

图 12 CCF YOCSEF西安候任主席许鹏飞对论坛作总结发言

图13 部分与会嘉宾合影

撰稿：王鸽

校稿：宋霄罡，童小敏，崔禾磊，许鹏飞，杨旭东

发布：YOCSEF 西安

CCF YOCSEF 新闻动态CCF Young Computer Scientists & Engineers Forum