基于分层强化学习的航天器星载自主任务决策算法

深空环境未知和不确定性使得传统算法难以收敛并应用，本课题提出一种基于分层强化学习的星载任务决策方法，以应对深空探测中遇到的未知和复杂环境。该算法以航天器遥测数据作为输入，采用双层决策架构构建模型，输出航天器需要执行的任务级指令。顶层决策者负责识别和选择任务类别，采用基于模型的强化学习方法，构建深空航天器运行环境仿真数学模型，模拟深空探测进行决策。低层执行者采用模型无关的强化学习方法，根据每个任务的特点，定制化训练模型，根据参数性质不同，采用DQN或者DDPG方法，专注决策任务的具体参数。此外，本研究将奖励函数泛化设计，设计若干可调节的奖励函数参数并加入到模型的状态信息中，并设计辅助网络，使得模型能自适应调整任务目标并影响航天器的自主决策，提高航天器的自主性。实验证明，通过分层设计思想，设计的星载自主任务决策方法在实际生产环境中能够满足实际需求，且具备较强的适应性和自主性。

张峻巍