广袤的海洋蕴藏着无尽的奥秘与丰富的资源。然而,深海的高压、黑暗、复杂洋流与通信隔绝,使其成为人类最难触及的领域。自20世纪70年代起,一群特殊的“探险家”—海洋机器人—开始代替人类,潜入万米海渊,巡视无边海面,逐步揭开海洋的神秘面纱。
从挂着缆绳的遥控潜水器,到独立行动的自主水下航行器;从在水面巡航的无人艇,到具备多栖能力的跨域机器人,这些形态功能各异的海洋机器人,已成为海洋科学研究、资源勘探、工程检测乃至国防安全不可或缺的力量。
在此关键变革期,顶级综述期刊《Annual Review of Control, Robotics, and Autonomous Systems》发表了一项重磅综述—数据驱动智能时代下的海洋机器人控制》。论文由香港科技大学洪林博士、张福民教授,大连海事大学刘陆教授、彭周华教授共同撰写,为我们系统性地梳理了当下海洋机器人控制的技术脉络,构建了一个兼具权威性与前瞻性,系统且全面的认知图谱。
一、海洋机器人大家族:各显神通的“海洋探索者”
自20世纪70年代问世以来,海洋机器人已发展出一个庞大的“家族”,每个成员都身怀绝技,适配不同的海洋任务。
自主水下航行器(AUV)如同“深海侦察兵”,无需线缆连接即可独立完成水下测绘、样本采集;遥控潜水器(ROV)则是“远程操作工”,通过脐带缆接收指令,精准执行水下焊接、文物打捞等复杂任务;无人水面航行器(USV)扮演着“水面哨兵”的角色,在海面进行巡逻监测、数据中继;而水下滑翔器(UG)则像“节能巡航者”,依靠浮力调节实现长航程、长时间的海洋环境观测。
各类海洋机器人的配置及其在海洋环境中的实际应用
除此之外,仿生水下机器人(BUR)模仿鱼类游动姿态,能在复杂水域灵活穿梭;空-水跨域机器人(AUR)可实现空中飞行与水下潜行的无缝切换,完成跨介质观测;水下机器人-机械臂系统(UVMS)则兼具移动能力与操作精度,成为水下作业的“多面手”。随着海洋任务日益复杂,单一机器人的局限性逐渐显现——感知范围有限、容错能力不足、作业效率受限,于是多机器人协同系统应运而生,如同“海洋舰队”般,通过分工协作实现更广覆盖、更高效率的任务执行。
论文指出,无论形态如何,控制系统都是海洋机器人的“小脑”,既要保障基本的运动功能,又要支撑复杂的自主决策。与陆地或空中机器人不同,海洋环境充满挑战:洋流、波浪、风的干扰无处不在,流体动力的非线性特性难以捉摸,水下通信延迟高、带宽有限。这就要求海洋机器人的控制系统不仅要精准实现路径跟随、轨迹跟踪等基础功能,还要具备极强的稳健性和适应性,在未知干扰与模型不确定性面前依然能够可靠运行。
二、传统控制的“瓶颈”:为何海洋机器人需要“智能升级”
长期以来,海洋机器人的控制主要依赖基于模型的传统方法。工程师们通过建立机器人的动力学方程,描述其运动规律与受力情况,再设计相应的控制算法实现精准调控。这种方法在结构简单、环境稳定的场景中表现出色,但其局限性在复杂海洋环境中日益凸显。
首先是“非线性难题”。海洋机器人在水中运动时,会受到流体阻力、升力、附加质量等多种力的作用,这些力与机器人的运动状态呈非线性关系。其次是“模型不确定性”。机器人的水动力参数会随航行姿态、速度变化,推进器、鳍片等执行机构的特性也会受海洋环境腐蚀、磨损影响,导致预设模型与实际情况存在偏差。再者,海洋环境的“动态干扰”难以预测—洋流的强度和方向时刻变化,波浪、风的作用随机且复杂,这些外部扰动会严重影响控制精度,甚至导致系统失稳。此外,海洋机器人还面临“欠驱动约束”(部分机器人无法实现所有自由度的独立控制)、“输入饱和”(执行器存在性能极限)、“状态不可测”(传感器难以获取全部运动状态)等问题。在多机器人协同场景中,水下通信的低带宽、高延迟、易丢包等特性,进一步增加了协同控制的难度。传统控制方法难以应对这些复杂挑战,亟需一种全新的控制范式实现突破。
三、数据驱动:海洋机器人的“智能学习”之路
近年来,机器学习的快速发展为海洋机器人控制带来了破局之路—数据驱动控制。这种方法无需依赖精确的数学模型,而是通过分析大量实验或仿真数据,让机器人自主学习环境特性与运动规律,从而实现自适应、高鲁棒性的控制。
论文将数据驱动控制方法归纳为三大类:基于模型的数据驱动方法、无模型数据驱动方法,以及传统方法与数据驱动的混合方法。
基于模型的数据驱动方法,核心是“用数据学习模型”。通过神经网络、高斯过程、Koopman算子等技术,从数据中挖掘机器人的动态特性,构建近似模型用于控制器设计。例如,神经网络如同“仿生大脑”,能通过多层神经元的协同运算,精准拟合复杂的非线性动力学;高斯过程不仅能学习模型,还能量化预测的不确定性,为稳健控制提供依据;Koopman算子则能将非线性系统“转化”为线性系统进行分析,架起传统线性控制与复杂非线性系统之间的桥梁。物理信息神经网络(PINN)更是将物理定律融入学习过程,确保模型既符合数据规律,又不违背基本物理原理,在数据稀疏的海洋场景中表现尤为出色。
海洋机器人数据驱动控制方案
无模型数据驱动方法则更进一步,无需构建任何模型,直接从数据中学习控制策略。其中,深度强化学习(DRL)是最具代表性的技术。这种方法让机器人通过试错积累经验:完成任务获得“奖励”,执行错误受到“惩罚”,通过不断优化策略最大化累积奖励。深度强化学习可分为基于价值、基于策略和演员-评论家三类方法。基于价值的方法如深度Q网络(DQN),通过学习动作的价值选择最优行为;基于策略的方法如近端策略优化(PPO),直接优化控制策略;演员-评论家方法则结合两者优势,学习效率更高、稳定性更强。
模仿学习则为机器人提供了“捷径”—直接学习专家的操作经验。通过行为克隆、逆向强化学习、生成对抗模仿学习等技术,机器人无需从零开始试错,而是快速复制人类或先进算法的控制策略,大幅缩短学习周期。深度模仿强化学习更是融合了模仿学习与强化学习的优势,先通过专家演示快速初始化策略,再通过与环境交互持续优化,兼顾了学习效率与控制性能。
混合控制方法则巧妙结合了传统控制与数据驱动的优势。例如,将比例-积分-微分(PID)控制的稳定性与强化学习的自适应性相结合,让强化学习在线调节PID参数,应对环境变化;将模型预测控制(MPC)的约束处理能力与强化学习的优化能力融合,提升复杂任务下的控制精度;将滑模控制(SMC)的鲁棒性与强化学习的自适应能力结合,增强系统抗干扰能力。这种“取长补短”的设计,成为当前海洋机器人控制的热门方向。
四、团队作战:多机器人协同的智能协作艺术
单一机器人的能力有限,多机器人协同作战才能攻克更复杂的海洋任务。就像自然界中的鱼群、鸟群,多台海洋机器人通过协同控制,能实现空间覆盖更广、抗干扰能力更强、作业效率更高的团队优势,完成单体机器人难以胜任的任务,如大范围流场测绘、水下协同操作、跨域搜救等。
多机器人协同控制主要分为三类场景:协同编队、基于博弈的竞争、跨域协作。协同编队要求机器人保持预设的几何构型,如同“整齐的舰队”执行巡逻、监测任务;集群控制则模仿生物群体的自组织行为,机器人通过局部交互实现全局协调,像“鱼群”一样灵活避障、自适应调整;目标包围控制让机器人围绕目标形成稳定编队,实现对移动目标的跟踪、拦截;区域覆盖控制则通过合理规划路径,让机器人高效扫描指定区域,完成环境监测、搜救等任务。
多海洋机器人协作的典型任务场景
在竞争场景中,博弈论成为核心工具。追击-规避博弈模拟海上拦截、反潜作战等任务,追击方协同规划路径捕获目标,规避方则灵活机动逃脱;围困博弈中,多台机器人协同包围目标,限制其活动范围;三方博弈则涉及攻击方、防御方与高价值目标,各方追求不同目标,形成复杂的对抗关系。
跨域协作则打破了单一领域的限制,让水下、水面、空中机器人协同作业。例如,无人机负责空中侦察、中继通信,无人水面艇负责海面部署、数据传输,自主水下航行器负责水下探测、样本采集,通过多域协同实现“空地一体、水陆联动”的全方位海洋探索。
数据驱动技术为多机器人协同提供了强大支撑。多智能体强化学习(MARL)让机器人在动态环境中学习合作与竞争策略,深度多智能体强化学习(DMARL)则能从原始感官数据中实现端到端的协同控制。针对水下通信受限的问题,研究者们开发了分布式控制架构、事件触发通信、量化控制等技术,在降低通信开销的同时保障协同性能;面对网络威胁,安全分层架构、鲁棒估计器等技术让协同系统更具抗干扰能力。
五、技术开源,让海洋探索更普惠
海洋机器人研究曾受限于高昂的硬件成本和封闭的技术体系,而开源平台的出现正在改变这一现状。开源仿真平台为研究者提供了安全、灵活、低成本的测试环境,无需实际部署即可验证控制算法。例如,HoloOcean支持多机器人协同仿真,集成了丰富的传感器模型和真实的水下通信机制;UUV Simulator专注于水下机器人仿真,能精准模拟流体动力学效应;MarineGym则专为强化学习设计,支持大规模并行仿真和仿真到现实的迁移。
开源海洋机器人硬件进一步降低了研究门槛。BlueROV2作为经典的开源遥控潜水器,采用模块化设计,支持传感器和执行器的灵活扩展,成为全球研究者的首选平台;LoCO AUV、MeCO AUV等开源自主水下航行器,兼顾低成本与高性能,适合教育和科研使用;开源无人水面航行器如ARCAB、MicroUSV,为水面机器人研究提供了便捷工具;开源仿生水下机器人OpenFish则为仿生机器人研究提供了可定制的硬件平台。
开源软件框架如机器人操作系统(ROS),实现了仿真与实际机器人的无缝对接,促进了算法的共享与复用。这些开源资源打破了机构间的技术壁垒,让学生、研究者和小型机构都能参与海洋机器人研发,加速了技术创新与成果转化。
六、未来展望:更智能、更自主的海洋探索者
数据驱动技术正在重塑海洋机器人控制的范式,但挑战依然存在:如何提升数据效率,减少机器人对海量数据的依赖;如何增强算法的可解释性,确保控制决策的安全性;如何实现仿真到现实的高效迁移,降低实际部署成本;如何应对复杂海洋环境中的通信约束和动态干扰。这些挑战也正是未来的研究方向。
未来,海洋机器人将朝着更智能、更自主、更安全的方向发展。物理信息学习与离线强化学习的结合,将让机器人在少量数据下快速学习,且无需在线试错即可获得可靠策略;大语言模型的融入,将实现人机自然语言交互,让非专业人员也能操控海洋机器人;跨域协同技术的突破,将构建“空-海-陆”一体化的海洋探索网络;安全强化学习的发展,将确保机器人在复杂环境中自主规避风险,保障作业安全。
论文链接:https://doi.org/10.1146/annurev-control-022723-033729
上一篇:如何健康地死去