王子豫1 杜宸旭2 刘洋3
1.香港科技大学(广州) 智能交通学域,广东 广州 511453;
2.西南交通大学 交通运输与物流学院,四川 成都 611756;
3.清华大学 车辆与运载学院,北京 100084
WANG Ziyu 1 DU Chenxu2 LIU Yang3
1. Intelligent Transportation Thrust, The Hong Kong University of Science and Technology (Guangzhou), Guangzhou 511453, Guangdong, China;
2. School of Transportation and Logistics, Southwest Jiaotong University, Chengdu 611756, Sichuan,China;
3. School of Vehicle and Mobility, Tsinghua University, Beijing 100084, China
摘要:
多模态大语言模型的兴起为视觉-语言-导航范式奠定了基础,它将视觉感知、自然语言理解与导航控制纳入同一策略。无人机领域迅速借鉴这一思路,尝试让飞行器直接读懂人类指令、在三维场景中推理并做出飞行决策。相比传统分模块导航,基于多模态大语言模型的端到端框架能够同步处理语言与视觉信号,一次性完成感知和决策的学习。然而无人机视觉-语言-导航的研究散落各处,尚缺系统梳理。本文对其最新进展做了全景回顾:从早期模块化方案到以推理为核心的视觉-语言-行动模型,剖析视觉、语言、控制信息如何被逐层耦合以提升自主导航能力;随后汇总现有数据集与评测协议,涵盖室内、室外复杂场景的仿真任务和真实飞行轨迹,指标包括成功率、耗时及指令理解深度;最后归纳关键挑战,例如跨模态对齐难、动态环境实时响应、高昂标注成本,以及复杂场景下的鲁棒决策需求。本文对现有的模型、数据集、挑战进行了全方位的梳理,清楚地呈现了无人机自主导航研究的新路线与未来的研究方向,指出大规模多模态大语言模型提升无人机智能决策与可解释性的前景,可为无人机高效、安全的自主飞行等应用提供一些参考和借鉴。