大小模型端云协同——大模型技术落地的破局之路 - 新闻动态

AI模型规模不断剧增已是不争的事实，从GPT-1 到GPT-3，模型的参数量从1.1 亿增长到1750 亿，国内百度的“文心一言”、腾讯的“混元”、华为的“盘古”以及阿里的“通义千问”等大模型已达到千亿甚至万亿的参数。大模型在算力推动下演变为人工智能领域一场新的“军备竞赛”。这种竞赛很大程度推动了人工智能的发展，但随之而来的端侧轻量部署以及垂直领域应用等问题限制了大模型技术的落地。大模型参数竞赛正进入冷静期，大小模型将在云边端协同进化：大模型向边、端的小模型输出模型能力，小模型负责实际的推理与执行，同时小模型再向大模型反馈算法与执行成效。

在此背景下，2023年9月2日，由中国计算机学会主办，CCF YOCSEF上海分论坛、上海交通大学承办的 “大小模型端云协同——大模型技术落地的破局之路”技术论坛在上海交通大学闵行校区电信群楼3号楼412会议室顺利召开。本次论坛由郑臻哲（上海交通大学，YOCSEF上海 AC委员）和刘通（上海大学，YOCSEF上海 AC委员）担任执行主席，由许文波（特高信息，YOCSEF上海 AC委员）担任微论坛主席，参与本次论坛的还有YOCSEF上海主席孔令和，副主席刘斐，学术秘书赵登吉、朱能军，AC 委员：吴一鸣、马骏，委员，刘通，石亮，还有YOCSEF 上海的荣誉委员：吴帆，YOCSEF天津的副主席，张圣林，论坛邀请了华中科技大学何强，北京邮电大学徐梦炜，来自工业界的三位讲者快手AI引擎负责人涂小兵、蚂蚁集团端智能xNN团队负责人王世豪、字节跳动 Client AI 团队负责人陈以鎏作为嘉宾进行了引导发言，吸引了来自学术界和企业界50多位相关人士共同参与。现场讨论气氛热烈，拥有不同技术背景与立场的同僚各抒己见。

本次科技论坛的输出观点是：大小模型端云协同进化可有效克服云侧集中式学习范式在可扩展性、实时性、个性化、负载成本、隐私安全等方面的不足。在数据要素方面：面对快速发展的大小模型和各类应用，我们还需要更规范化、行业细分的数据治理体系；在计算资源方面，需要充分利用云端与终端上的碎片化计算资源，并与通信以及存储资源进行联合优化；在模型设计方面，需要设计端云大小模型拆分以及聚合的新模式，大模型的涌现能力以及小模型的功耗分析是模型设计需要考虑的问题。

开幕式环节

引导发言环节

在引导发言环节，何强教授以“边缘协同训练：新机遇与新挑战”为题，从边缘端模型训练的角度出发，着重关注模型训练在边缘辅助的场景应用中产生的新问题与对应的解决方案。针对端云间的传输网络流量受限问题，他提出利用边缘服务器辅助多个边缘设备模型聚合的方案，能够节省整体的训练耗时并提高模型面对恶意攻击时的鲁棒性；针对端侧模型异构性没有得到充分考虑的问题，他提出一类基于模型层级架构的聚类训练算法，能够提高模型训练的精度与收敛速度；何强教授另外介绍了其团队在解决边缘设备移动性带来的通信时延，与边缘服务器间缺乏可信协作模式两个问题的相关工作，围绕边缘辅助训练落地应用的难点进行讨论。

北京邮电大学徐梦炜副研究员的引导发言题目是“大语言模型时代下的边缘智能系统”，重点介绍其团队在边缘智能系统软件方向的相关成果和思考，关注大模型对传统边缘智能系统的新机遇和新挑战。徐梦炜首先指出，目前的移动设备上使用的深度神经网络模型高度碎片化，难以利用移动设备上的丰富NPU资源，并介绍了其团队通过硬件设计、系统构建、算法模型协同设计实现的深度神经网络模型，在各类基准任务上都取得了显著的提升。针对反向传播算法耗费内存多、NPU实现不友好、难以规模化的问题，他提出在训练中使用前向梯度替代反向传播算法以实现更高效的端侧部署。徐梦炜指出专家混合模型（MoE）可以利用大模型快速校验小模型的结果，在端云协同场景中具有广泛的应用前景，并介绍了其团队设计的MoE端侧推理引擎。他认为大模型的兴起将成就移动计算领域的又一个黄金年代，我们需要围绕着大模型的应用以及系统设计进行未来的研究。

快手AI引擎负责人涂小兵的引导发言题目是“KwaiNN 计算引擎的端云探索之路”，为我们讲述了快手在端云协同应用上的探索，包括音视频增强、个性化端训练与端推理、自动模型分级优化等应用场景及具体的系统部署，利用端云间的协同，实现推理与训练性能的提升，保护用户隐私，节省服务器资源，赋能千人千模。针对目前的AIGC扩散模型场景，涂小兵介绍了其团队在降低扩散模型端上部署算力需求方面的蒸馏优化方案。

来自蚂蚁集团端智能xNN团队的王世豪为我们带来了题为“算力碎片化下蚂蚁端智能的探索”的引导发言。王世豪指出，端侧设备的算力资源方差极大，由此而生的核心问题是如何保障低端设备的基础体验，同时为高端设备带来创新体验。然而，针对不同端侧算力的分级研发成本是企业无法负担的。为了简化不同业务线的研发流程，xNN团队开发了可伸缩建模的端侧模型，实现了设备友好、开发流程简化与性能的提升。王世豪还介绍了支付宝的端边云协同体系结构及其典型应用，包括终端算力增强、中心算力卸载以及边缘网络加速。

字节跳动 Client AI 团队负责人陈以鎏的引导发言题目是“字节跳动端云协同实践”。他在前两位工业界嘉宾引导发言的基础上，进一步细化了关于端云分工的思考。陈以鎏认为，在目前的端云协同的智能创作应用中，对于模型响应时间的要求是相对稳定的，但模型的大小可能因需求场景而变化，端和云的分工也应当主要由场景决定，随硬件配置、模型设计、传输成本而改变。陈以鎏同样介绍了抖音中端云协同的具体应用场景及设计，包括边缘特征工程、边缘触达、边缘推荐及边缘训练。在引导发言的最后，陈以鎏指出了未来端云协同的应用方向是大模型的终端部署以及发掘AR/VR等新硬件的数据与计算资源。

引导发言环节-颁发感谢牌

在思辨讨论环节，就大小模型端云协同的发展趋势及技术路线展开讨论。论坛还特别邀请了同济大学的胡亮教授与联合汽车电子的陆唯佳博士作为嘉宾共同参与思辨。

第一个问题我们就大小模型范式下，数据治理体系新的技术需求展开讨论。

何强认为我们首先应该明确数据治理涵盖的概念，例如欧洲的数据规范要求数据留在当地，这种情况下大小模型如何进行训练，是否有技术手段适应或者突破。郑臻哲对该观点进行补充，指出联邦学习是使数据留在本地的一种解决方案，我们需要明确这种需求是法律规定还是技术手段。王世豪认为我们需要探索联邦学习实际中的法律问题，从而能够在法律条款允许的范围内获得数据，许多时候我们做联邦学习的主要原因并不来源于隐私问题，而是数据量过大导致无法全部在云端处理。陈以鎏结合字节跳动内部的数据获取流程，认为应该规定对企业内部数据应用进行更严格的排查，在技术与流程上都需要对数据进行保障。胡亮则根据实际应用中产生的问题指出新的需求，例如短视频等应用造成数据量几何增长，针对大量的AIGC短视频，在端侧的上传之前，就需要算法进行审核，但这涉及到如何量化评估的问题，需要根据数据与用户关系加强AI治理。

徐梦炜对数据涵盖的范围提出了新的观点：大模型的参数同样也是一种重要的数据，我们需要思考如何同时保护模型参数与训练数据。针对这个问题，王世豪认为可能的合作模式是在大模型基础上针对应用场景进行微调。来自华为的王飞指出我们需要明确大小模型范式究竟是什么，是大模型帮助生成小模型，还是基于小模型完善大模型，而之前数据治理的技术为何在此范式下不再适用。他认为联邦学习是一种数据并行，难以处理大模型的参数量，需要开发新的模型并行方式。来自美团的唐笛认为各厂商部署自己的大模型比较困难，希望获得第三方的大模型能力，但如何保证该能力提供的标准化是需要解决的问题。浙江大学的张圣宇认为端云模型的目标可能不一致，当云上汇集端上数据后，数据是否能够泛用，如何处理数据偏移是一个值得关心的问题。陆唯佳最后结合汽车行业的场景，指出数据治理在工业场景下有特殊性，此类应用中的数据与建模大多来源于仿真，与实际数据间有差别；且很难与仿真拿到一样的传感器数据，也因此难以控制数据攻击问题，希望可以通过分布式训练减少仿真的误差。

由此看来，面对快速发展的大模型能力和各类应用，我们还需要更规范化、行业细分的数据治理体系。

思辨环节

第二个问题我们讨论了如何在大小模型范式下充分利用集中式云算力与分布式异构端算力。

涂小兵结合业界公司的算力分配方式，指出在公司业务中可以进行对算力进行分时复用，打通训练与推理资源。徐梦炜进一步指出学术界研究过如何快速进行资源抢占，由于模型设计在大模型时代正在变得一致，这是一个利用端侧设备NPU的机遇，并再次解释了他为何认为MoE在大小模型协同方向具有重要的应用前景。华为的李芳芳认为无线网络除了提供链接能力，也应该提供计算、通信资源的联合调度，才能实现对算力的充分利用。南开大学的张圣林副教授依据分布式训练时报错有延迟的现象，提出在端云训练中需要更频繁的故障检测，以避免算力资源的浪费。胡亮则指出在利用分布式异构端算力时需要对大模型进行拆分，并在云端集成异构的模型结构，这对于多模态模型会更加复杂，需要仔细设计如何进行终端拆分与云端集成。科华数据的韩斌宏先生认为当网络不再是问题的时候，数据存储与计算需要更好地处理。

华东师范大学的石亮教授对于徐梦炜先前的讨论提出了疑问，终端上的模型到底有多小，小到什么程度需要放到异构端上处理。针对这个问题，徐梦炜的回答是，学术界与工业界对于模型大小的认识不一样，具体多小需要放到端上处理取决于场景，学术界更关心在给定资源下端侧设备有能力运行多大的模型。何强对于利用端云算力时大小模型的定位提出了新的见解，把大模型缩小放到终端上未必能够实现大模型的能力，因此不一定需要把大模型放到终端上去；在未来，多模态大模型只会让模型越来越大，让大模型和小模型各司其职可能是更适合的方式。陈以鎏指出，目前的终端已经有能力运行部分大模型，且并不是所有场景都需要非常大的模型。大小模型协作上可以通过小模型输出、大模型校验，也可以让小模型直接输出自评。英特尔（中国）有限公司的俞魏认为，大小模型的判断取决于模型是否可以运行在特定设备上，也指出另一种判断标准在于精度的区别，所以大小模型定义取决于看问题的方向。石亮提出，未来应该同时考虑大模型的通用性与便携性。

我们第三个讨论的问题是云上大模型和端上小模型设计与协同的技术方案。徐梦炜介绍了其研究组在此方面的基础模型工作，对基础模型进行了硬件优化，微调参数少，以提高整体性能。他指出模型的涌现能力需要一定参数量，因此在现行技术方案下小模型在端上难以保证足够提供涌现能力，需要进一步探究涌现能力来自何方。李芳芳提出我们可以借鉴联邦学习之外的分布式学习或边缘计算方法，将其应用到大模型训练。俞魏对此进行补充，他认为联邦学习在一定情况下是为了获得更多数据，所以提高大模型性能可能比联邦学习更有前景。张圣林进一步提出在大模型与小模型交互时需要考虑可追溯性，便于进行诊断。陆唯佳指出在协同时必须考虑能耗问题，以防止端侧设备的中途退出，因此同样需要对能耗进行预测与调度。

从嘉宾们的讨论中可以看出，大小模型端云协同的计算范式正处在积极发展的时期，各类设计架构间的取舍与设计要素尚未有确定的答案，其未来趋势值得期待。

在思辨环节的最后，嘉宾们围绕业界端云模型训练中的数据隐私进行了激烈的讨论。由于现场有许多来自工业界的嘉宾，石亮向他们提出了问题：在当前的手机应用中，隐私的终端数据究竟是如何进行脱敏处理的。涂小兵认为隐私缺少统一标准，很难判断数据是否绝对安全。王世豪说明在支付宝中，应用方会显式告知用户希望访问哪些数据，且内部任何一个业务开发都需要隐私、法务流程检查。陈以鎏同样说明，字节跳动的内部开发要求数据收集能够以任何方式公示给公众，数据可采集但不传输就是做联邦学习的目的。唐笛指出如果不采集数据，用户的体验实际上会比较差；在这个前提下，使用数据时一定要保证基本的原则，例如不做大数据杀熟，这方面国家的监管是比较严格的。徐梦炜认为出于隐私考虑，未来大模型肯定倾向于在端上进行，但中间存在过度阶段，在不得不上传数据的情况下，如何保护特别隐私的信息值得进一步研究。俞魏指出部分硬件存在可信加密功能，所以软件和硬件厂商可以在隐私方面进行互相牵制。嘉宾们对端云协同中数据隐私的探讨反映了业界与民间存在的信息差，当业界开发技术手段使隐私数据在端侧被处理但不上传至云侧，国家采取各种相关的法律监管措施时，如何使民众对于数据隐私更加放心。

思辨环节-颁发感谢牌

总结：大小模型端云协同将是移动智能的未来方向，在技术层面持续进展的同时，也需要建立完善的数据治理体系。使AI算法在移动端大放异彩，需要大家共同的添砖加瓦。

本次论坛活动在大家的热烈讨论中圆满结束。

全体合影

CCF YOCSEF 上海CCF Young Computer Scientists & Engineers Forum