基于分层强化学习的航天器星载自主任务决策算法

深空环境未知和不确定性使得传统算法难以收敛并应用,本课题提出一种基于分层强化学习的星载任务决策方法,以应对深空探测中遇到的未知和复杂环境。该算法以航天器遥测数据作为输入,采用双层决策架构构建模型,输出航天器需要执行的任务级指令。顶层决策者负责识别和选择任务类别,采用基于模型的强化学习方法,构建深空航天器运行环境仿真数学模型,模拟深空探测进行决策。低层执行者采用模型无关的强化学习方法,根据每个任务的特点,定制化训练模型,根据参数性质不同,采用DQN或者DDPG方法,专注决策任务的具体参数。此外,本研究将奖励函数泛化设计,设计若干可调节的奖励函数参数并加入到模型的状态信息中,并设计辅助网络,使得模型能自适应调整任务目标并影响航天器的自主决策,提高航天器的自主性。实验证明,通过分层设计思想,设计的星载自主任务决策方法在实际生产环境中能够满足实际需求,且具备较强的适应性和自主性。