支持航天器自适应科学探测的一种基于Actor-Critic的超启发式星载任务规划算法

为解决航天器应当对不同的算法的选择具有自适应性，本课题提出了一种以强化学习为基础的超启发式航天器自主任务规划算法。面对航天器上多种任务级指令，底层算法从全局搜索能力，解的优化质量，收敛速度和适用问题类型四个角度考虑，选择了四个元启发式算法（粒子群算法、灰狼优化算法、正余弦优化算法、树种优化算法）作为算子。顶层以Actor-Critic算法为基础，以基于LeNet的改进网络作为策略网络，并构建价值网络。为提高算法灵活性和适应性，从绝对因素和相对因素两个角度综合设计奖励函数，并结合具体工程背景和算法特性，建立对应的数学模型，设计合理的算法评价指标。实验证明，设计的基于强化学习的超启发式算法能够取得较为优异的适应性，并能够实现航天器的任务目标。本研究创新性地将超启发式算法结合强化学习方法应用到航天领域，能够满足航天相关任务需求和场景。

张峻巍