2025年11月8日,中国计算机学会(CCF)主办的“无人机视觉语言导航如何赋能应急救援跑赢灾难时钟?”技术论坛在华北电力大学自动化系顺利召开。论坛由中国计算机学会青年计算机科技论坛(CCF YOCSEF)保定学术委员会组织举办,YOCSEF保定主席王祝(华北电力大学)、副主席尹红涛(北京青城博雅)担任执行主席。来自高校、科研院所及企业等共计二十余个单位的五十余位专家共同探讨无人机视觉语言导航技术如何助力应急救援。
论坛开始,红涛首先介绍了CCF YOCSEF及其文化。随后,王祝介绍了本次论坛的背景:随着多模态大模型技术的引入,无人机自主导航已经从依赖于目标坐标或图像的方式,发展出视觉语言导航的新模式。无人机视觉语言导航在人机交互、陌生环境、未知目标以及任务通用性方面展现出广阔潜力,但也存在刚需场景不明、导航成功率低、算力要求高等局限,这为其实际应用蒙上了一层阴影。论坛聚焦应急救援场景下无人机视觉语言导航的应用价值和实现路径,助力我国应急救援设备发展和体系建设,为更好地保障人民生命安全提供技术支撑。
引导发言
在引导发言环节,三位嘉宾分别从无人机应急救援应用、无人机视觉语言导航技术现状、开放场景具身大模型研究进展等方面分享了实际需求与技术前沿,为后续的思辨讨论奠定了扎实的专业基础。
田立勤(应急管理大学(筹)教授、计算机科学与工程学院院长)在《无人机应急巡检与人员搜救》引导发言中,围绕无人机技术革新应急巡检与人员搜救,重点分享了“感知-核实-评估-决策”四层递进式风险巡检体系。该体系依托多模态感知、自动快速巡检、智能识别等核心技术,使无人机能够精准探测多种常见风险,并有效支撑远程操控与数据共享,实现无人机智能化巡检。最后,通过实际应用案例展示,凸显了无人机在复杂应急救援场景下的广阔应用前景。
田永林(中科院自动化所助理研究员)在《低空智能感知与视觉语言导航》引导发言中,围绕低空发展的三阶段路径——“低空增强交通、低空自主交通、空地协同交通”,系统分享了相关研究与实践进展。首先,综述了无人机视觉语言导航技术的最新进展,涵盖三种典型任务模式、多种数据平台与多模态信息融合,以及多无人机协同等研究热点。随后,介绍了低空无人系统大模型的构建方法,重点阐释如何通过增强基础模型的时空理解能力,以提升系统自主决策水平。最后,结合在无人机物流场景中的实践,探讨了视觉语言导航技术的应用潜力与发展前景。
仉尚航(北京大学研究员)在《开放世界泛化具身多模态基础模型》引导发言中,分享了多模态大模型在自动驾驶与具身智能两大领域的关键挑战、研究路径和典型成果。针对当前大模型“不好用、不易用、不通用”的瓶颈问题,重点介绍了通过构建类人思考的“快慢系统”并采用大小模型协同的方式予以应对的思路。同时,针对大模型在部署中面临的性能与效率平衡难题,重点介绍了知识蒸馏、视觉令牌剪枝以及端云协同的持续学习机制。最后,还介绍了面向具身智能的大规模数据集构建以及模型实际部署的相关工作。
思辨环节
在思辨环节,参会嘉宾围绕无人机视觉语言导航在应急救援领域的落地难点、能力需求和技术路径展开讨论,庞治(保定市蓝天救援队队长)、龙腾(北京理工大学教授、空天科学与技术学院院长)、陈路(山西大学副教授)作为特邀嘉宾发言。
议题1:无人机视觉语言导航距离开放场景应用还有多远?仿真训练与实战落地的关键差距在哪?
庞治援引无人机在驴友救援、涞水救灾等实战案例,指出无人机在应急救援中已扮演着极其重要的角色,无人机自主导航对应急救援具有重要价值。陈瑞进一步阐释了其优势,她认为通过融合多模态信息,VLN能更快判断待救援者状态,从而有效指导救援行动。胡玉姣多次发言指出无人机VLN有实用价值,也承认当前完全自动化难以实现,但强调当前的问题本质是技术问题,而非场景本身不适用。彭锦佳也认为该技术具备应用价值,她认为缺乏真实场景数据导致模仿效果与真实效果存在差距,并建议通过大语言模型与图像分析在真实场景中的尝试来推动进展。
与支持方相对,另一派嘉宾对VLN在应急救援这类高压力开放场景中的可靠性提出了深切担忧。鄢兴雨认为在救援场景中自然语言导航能发挥的作用很小,因为人类难以向无人机清晰表达任务,而机器理解模糊指令的能力更弱,在失败容忍程度低的任务中,主张应采用更明确可靠的交互方式。张少康对此表示赞同,并补充指出应急救援具有极强的时间敏感性,模型驱动的自然语言方法可能因不被信任而影响效率。柳凌燕系统地概括了仿真与实战间的三大差距:人类语言表达与理解的固有模糊性、试验环境难以模拟真实极端条件与动力学特性、以及系统延时与电力损耗等实际工程问题。徐大伟认为当前模型在实战中表现不佳的原因不仅在于数据缺乏,更在于学习数据得到的模型并没有像人类一样掌握真正的逻辑和方法,这限制了其在真实环境中的泛化与推理能力,导致还无法落地使用。
议题2:如何构建无人机视觉语言导航在泛化、效率等方面的能力矩阵,才能保障任务的高成功率?
龙腾指出无人机在应急救援等复杂环境下,常常面临极端条件的考验,要想视觉语言导航任务高成功率,首演要将视觉导航能力发挥到极致;同时,需探索如何通过语言交互提升模型的泛化能力。秦亮表示VLN技术的优势在于多模态融合,单纯追求视觉的极致而脱离语言,将无法发挥其真正潜力。然而,语言在VLN中究竟扮演何种角色?丛帅认为大模型的语言能力远不止于对话,其承载的庞大信息量与语义理解能力,能够为无人机提供更广阔的环境认知。何志强进一步明确了语言的双重角色:它既是任务指令的输入接口,也是多源数据融合中的关键信息流,但同时也带来了数据冲突时需要判断的新挑战,因此在任务中还需要具备主动交互能力。
针对系统可靠性问题,鄢兴雨指出必须解决人类语言的不确定性问题。他提出构建一个交互闭环:首先需要一套可让用户确认机器理解是否正确的指令体系,其次需要一种能够快速更正理解错误的自然语言交互方法。彭锦佳也指出在语言理解上,模型需能递进式地提取模糊描述中的有效信息;在视觉层面,需重点解决场景语义理解、对齐与定位的问题。张畔指出需关注语言导航在嘈杂环境中的鲁棒性问题,不能忽视现实世界的复杂性。湛维明从另外一个方向提出解决思路,他指出应急救援本质是群体任务,未来应通过多无人机协同来构建体系化能力,弥补单机局限,提升任务成功率。
面对模型能力的不足,田永林认为,可依据Scaling Law通过海量数据训练专用模型,或利用提示工程激发大模型在VLN多步任务中的潜力。秦亮亮则指出,除了传统的数据驱动范式,通过强化学习提升模型的认知能力,是其在细分领域落地的另一关键。
议题3:真实数据缺乏与机载算力限制的挑战下,如何实现兼顾时效与安全的视觉语言导航?
陈路指出同时保证时效与安全的解决路径可归纳为:利用仿真数据弥补真实数据不足,采用“云端协同”计算模式突破终端算力限制,并需在数据驱动基础上引入逻辑推理机制,推动技术范式的根本性突破。龙腾指出,安全是无人机导航的首要考虑因素,在算力有限的条件下,应面向特定场景设计专用模型,并建议可以先在相对理想的室内场景中验证技术价值,再向复杂的应急救援场景适配应用。张少康同样强调安全第一,指出任何智能系统都离不开人的最终管控。翟清剑指出未来数据将很充分,并展望了脑机接口等新型交互方式的可能性。丛帅指出当无人机的安全处理体系能接近人工甚至优于人工时,技术的普及将水到渠成。
针对安全保障,秦亮亮提出需引入物理约束提升效率与安全性。何志强对此表示赞同,并指出可利用例如数字孪生、多源数据融合等技术在系统上层构建安全回路。陈瑞借鉴传统导航的经验,呼吁建立专门的安全检测与报警机制,以评估决策风险并在出问题时及时介入。肖廷乐提出了一个关键思路:无人机未必需要全知全能,其在应急中的核心价值或是“提供视野”,而将复杂的语义判断与决策交给人。仉尚航对此补充,指令的最终规划和执行应允许人为规定和约束。
针对时效性,安立飞从企业视角补充,成本是落地关键,当前需走“从通用到专用”的精简路线以实现低成本部署。刘扬强调在细粒度、复杂空间关系中,构建专用小模型是提升效率的有效手段。李硕士也赞同该观点,表示针对特定场景任务定制轻量级模型是当前提高视觉语言模型效率的有效方法。
论坛总结
论坛在热烈的思辨中落下帷幕,执行主席红涛对思辨进行了总结。与会嘉宾经过充分交流和思辨,在应急救援无人机视觉语言导航价值与局限、视觉语言大模型上天路径等方面贡献了精彩观点,为无人机视觉语言导航在开放场景下的应用与发展提供了非常有意义的输出。
CCF YOCSEF保定分论坛简介
CCF YOCSEF保定分论坛于2018年5月22日成立,以扎根保定,立足河北,辐射京津冀,激活河北CCF生力军,发出河北声音为目标,为大家提供了交流、合作、发声平台。保定分论坛历任主席杨晓晖(河北大学),何志强(河北金融学院),鲁斌(华北电力大学(保定)),赵振兵(华北电力大学(保定)),刘帅奇(河北大学),王珺(河北大学),何振学(河北农业大学),王祝(华北电力大学(保定)),自保定分论坛成立以来共举办论坛、报告会、沙龙等活动百余场。
欢迎河北地区高校与企业届加入CCF YOCSEF保定学术委员会!
欢迎企业和媒体朋友与CCF YOCSEF保定接洽,探讨学术交流、媒体报道、活动赞助等相关事宜!
联系人:王祝(18612463731)、尹红涛(15810730208)














