邱健蓄电池利用PPO和DQN强化学习算法的CVT混合动力电动汽车多智能体协同优化电池老化感知控制策略
来源:
邱健蓄电池 发布时间:2026-04-16 20:36:56 点击: 次
对于配备无级变速器(CVT)的混合动力电动汽车(CVT-HEV)而言,无级变速器速比与扭矩分配对燃油经济性和电池寿命具有重要影响。然而,传统能量管理策略未能考虑CVT速比的优化。为解决上述问题,本研究提出一种基于多智能体协同优化的电池老化感知控制策略。首先,构建了以CVT速比和扭矩分配为核心的多目标优化问题,并采用庞特里亚金极小值原理(PMP)进行离线求解。随后,无级变速器速比通过近端策略优化算法实现实时优化,而CVT-HEV的扭矩分配则通过深度Q学习神经网络进行实时优化。最终,结合上述方法,本研究相应建立了多智能体强化学习(MARL)策略。结果表明,将CVT速比优化纳入能量管理具有必要性。该MARL策略能有效降低运行成本并抑制电池温升。相比电量消耗-维持策略,所提策略使总成本降低17.29%。数值仿真与半实物验证结果均表明:该策略可有效减小电池温差、延缓电池老化并提升燃油经济性。
引言
随着工业车辆的发展,混合动力电动汽车(HEVs)因节能、减排及低成本运营特性而受到越来越多的关注[1]。配备无级变速器(CVT-HEV)的混合动力车辆可通过连续调节传动比实现发动机效率最大化,从而获得最优理论功率输出。然而,不合理的动力分配会加剧电池老化并增加车辆运营成本[2]。为此,本文以平衡燃油经济性与电池耐久性为目标,提出一种集成无级变速器(CVT)速比调度与扭矩分配的电池老化感知多智能体能量管理系统,通过将两者纳入在线决策过程,解决了实时协同优化与策略适应性方面的不足。
事实上,针对混合动力汽车(HEVs)的能源管理性能优化,学界已开发出多种能源管理策略(EMSs)。这些方法总体上可分为三类[3]:基于规则的EMS、基于优化的EMS以及基于强化学习(RL)的EMS[4]。其中,基于规则的策略通常包含模糊逻辑控制(FLC)[5]和电量消耗-电量维持(CD-CS)策略[6]。这类策略计算简单但实用性有限,常需与其他优化算法结合使用。作为全局优化算法,动态规划(DP)[7]与庞特里亚金最小值原理(PMP)[8,9]无法实现实时优化,通常仅作为评估其他EMS的基准。而等效燃油消耗最小策略(ECMS)[10]和模型预测控制(MPC)[11]这类瞬时优化算法虽能提升燃油经济性,但其效果依赖于行驶工况的先验知识或预测精度。因此,本研究解决的关键问题之一是通过利用全局最优控制序列实现实时优化,同时考虑多变量优化因素。
随着人工智能技术的持续进步,基于强化学习的能量管理系统(RL-based EMS)因其克服上述缺陷的潜力而引发广泛研究[12]。文献[13]通过以时间轴形式客观评述强化学习发展现状,进一步佐证了这一研究背景。Ma[14]将模型预测控制(MPC)与双延迟深度确定性策略梯度算法(TD3)相结合,从而提升燃料经济性并减缓电池性能衰退。吴[15]提出基于马尔可夫链算法预测行驶工况,采用强化学习(RL)算法进行在线修正,使燃油经济性提升4%。研究表明深度确定性策略梯度具有更快的优化与训练速度[16]。深度Q学习网络(DQN)通过动作离散化可在连续状态空间中运行,其核心机制是利用神经网络逼近Q值函数。Lin[17]开发了基于DQN的算法,并采用自适应探索因子进一步改进强化学习,使燃油经济性提高7.1%。基于策略梯度的方法可直接处理连续动作空间。文献[18]提出了一种知识辅助深度强化学习方法,该方法能提升算法收敛性并减少计算耗时。Li[19]提出了一种新型近端策略优化(PPO)算法以最小化发动机运行成本,并证明基于PPO的能源管理系统在强化学习类EMS中展现出最佳收敛性能。文献[20]对13种主流能源管理系统的比较研究表明,DQN在离散动作空间中具有最低的时间成本。相比之下,PPO在连续动作空间中的时间成本最低。上述策略主要通过降低燃油经济性来减少运营成本。然而,试图同时输出所有动作的整体网络面临着呈指数级增长的复杂度,这严重阻碍了训练的稳定性和收敛性。此外,单智能体框架通常依赖于统一的标量奖励,这使得难以设计平衡竞争性目标或适应具有根本不同特性和时间尺度的动作的针对性奖励结构[21,22]。基于协同交互理论,多智能体协同优化通过提升整体经济性与收敛效率展现出卓越的环境适应能力,具有重要的研究价值[23]。Liu[24]采用多智能体框架对发动机功率与混合储能系统功率分配进行优化,验证结果表明该多智能体能量管理策略的性能显著优于单智能体方案。此外,Chang[25]设计了两个分别针对不同动力部件特性的智能体来控制发动机与电机,从而提高了算法优化速度。
上述策略主要考虑功率分配与电池生命周期,却未将传动系统的作用纳入考量。无级变速器(CVT)速比影响混合动力汽车(HEV)的能量分配,其优化涉及两个相互关联的子问题:运行成本与发动机效率。该问题通常表述为双层优化问题并通过序贯求解实现[26]。Liu[27]提出基于模型预测控制(MPC)的综合算法优化CVT速比,使燃油经济性提升4.9%。在扭矩分配前确定的CVT速比无法充分发挥节油潜力,因此单目标优化难以有效提升整体经济性,这凸显了协同优化技术探索的重要性。Kihan[28]证实NSGA-II算法在效率维度能实现最优扭矩分配。Su[29]采用多智能体强化学习算法同步控制能量管理与速度规划,相较深度确定性策略梯度(DDPG)方法,燃油经济性提升2.98%且收敛速度加快48。59%。然而不同目标间的尺度与比例可能存在显著差异,现有研究仍缺乏能实时协同优化CVT速比与扭矩分配、并显式考虑电池老化的系统方法。为此,本研究采用多智能体场景下的差异化算法进行优化。
如表1所示,能量管理系统主要可分为单目标优化与多目标优化两类。然而,现有研究鲜少将基于自学习的无级变速器速比动态调节与多目标协同优化机制相结合。为填补这一研究空白,本研究提出一种基于PPO与DQN强化学习算法的多智能体协同优化电池老化感知控制策略,用于无级变速混动车辆,其主要贡献可归纳如下:(1) 提出一种基于PPO与DQN算法的异构多智能体算法,通过协同控制无级变速器速比与扭矩,实现燃油消耗与电池老化的最小化。(2) 与CD-CS策略、基于PMP的策略等基准策略相比,本文对多智能体强化学习(MARL)策略进行了深入探讨。验证结果表明,所提出的策略能确保CVT-HEV在行驶循环中实现优异的燃油经济性,同时延长电池寿命。
本文其余部分结构如下:第2节介绍CVT-HEV模型与电池老化模型,第3节提出基于极小值原理(PMP)的全局最优控制算法,并详述结合近端策略优化(PPO)算法与深度Q网络(DQN)算法的多智能体在线优化方法。第4节通过仿真与硬件在环(HIL)实验验证所提策略的性能,第5节给出最终结论。