IEEE Open Journal of Vehicular Technology (OJVT) 是一本开放获取的全电子期刊,发表原创高质量论文,涵盖移动无线电、机动车辆和陆地交通领域电气和电子工程的理论、实验和操作层面。我们的期刊不仅欢迎原创高质量论文,也欢迎以行业为中心的出版物,重点关注研究成果并提出对进行类似研究的人员有用的想法。
我们首篇月度特荐论文由新墨西哥大学 (University of New Mexico)的研究团队撰写,提出了一种基于集群的联邦强化学习框架,使无人机能够在分布式环境中协同训练导航模型。该方法通过聚合集群内的局部经验而非依赖集中式数据收集,有效降低了通信开销,并提升了仿真环境下初步训练模型在真实场景中的适应能力,最终在复杂不确定条件下实现了卓越的控制性能。
Clustered Federated Reinforcement Learning for Autonomous UAV Control in Air Corridors
Authors: Meng Xiang Xuan; Liangkun Yu; Xiang Sun; Sudharman K. Jayaweera
Published in volume 6, IEEE Open Journal of Vehicular Technology
https://ieeexplore.ieee.org/document/11015557
强化学习在三维机动任务中展现出潜力,但其训练过程需要海量数据支撑,且当训练环境与评估环境存在差异时(例如从仿真环境迁移至现实场景),其性能会出现显著下降。若采用实时真实数据进行训练,单次模型更新所需传输和处理的数据量将消耗巨大算力与能源,这在某些应用场景中(如四旋翼无人机或星际探测器)往往难以实现。
联邦学习(Federal Learning) 通过仅传输并平均模型参数来缓解这一问题,其数据量级远小于等效更新所需的原始数据。与传统联邦强化学习框架假设所有客户端均具备预设本地数据集不同,我们的方法将客户端组织为多个集群,每个集群首脑汇聚成员飞行数据进行本地训练,继而参与全局模型构建。例如,多个无人机试验场可通过此方式共享训练经验,每个由具备反向传播能力的本地服务器领导。
我们运用该方法将仿真环境训练的模型适配至不确定场景:多个实体需连续通过由直线圆柱体与弯曲环面体构成的空中走廊且避免碰撞。通过与传统反向传播方法及LoRA(一种减少训练权重重量的方法)的对比发现:传统方法与LoRA相当于单智能体采集全部数据,而我们的方法采用三个智能体各采集三分之一数据。虽然我们的方法在通过10段连续走廊的到达率上略逊于传统方法(89% vs 95%),但较未训练方法有明显提升,且在增加走廊内并行实体数量时仍能保持部分性能。后续需对集群参数(集群数量、单集群客户端数)及异构集群对全局模型的影响进行深入评估。
