智能规划技术是科学决策的重要手段,可以完成科学实验方案规划与评估等任务,在医疗健康、生产调度、航空航天等诸多领域发挥关键的作用。然而,目前的智能规划方法大多局限于单向推理,存在盲目性高、效率低等问题。近日,中国科学院自动化研究所“磐石·科学基础大模型”研发团队提出一种新型的“神经-符号”融合规划器,为神经规划系统和符号规划系统的融合提供了统一和通用的框架。该智能规划器已集成至“磐石·科学基础大模型”。

基于Knowledge of Result(KR)的闭环系统是人类运动学习的关键部分,可以帮助学习者纠正错误,向着目标方向实现有效学习。 “神经-符号”融合新型规划器通过借鉴这一反馈闭环理念,构建了一种闭环反馈的双向规划机制——KRCL(Knowledge-of-Results based Closed-Loop),正向神经规划器生成问题的动作序列与反向KR反馈机制构成动态的错误检测-纠正闭环。该机制通过有效利用信息的双向传递和反馈来评估和调整动作,在规划中研究以KR信息为中心的闭环规划结构,实现准确的反馈以加强错误检测和错误纠正,持续评估和调整规划器的动作,从而促进规划器的有效学习。此外,研发团队构建了一种规划器与规划识别器的新型融合模式,实现了神经系统与符号系统之间的双向连接,通过利用两种范式的互补优势,在规划中同时实现的有效学习和推理。其中,基于神经系统的规划器利用其强大的表示和学习能力生成规划动作序列;而基于符号系统的规划识别器作为反向机制,通过准确、可靠的推理来校正规划结果,在规划的过程中兼顾有效学习与推理能力。

为进一步提升规划效率并减少对反馈信息的依赖,研发团队还提出了面向规划的自我控制机制,从规划问题难度和模型表现两方面展开研究,让反向规划识别器只在正向规划器“需要”的时候被激活,优化正向规划器接收反馈的频率,减少双向规划器对反馈的依赖,进而提高模型的自主性和规划效率。

研究团队在国际IPC(International Planning Competition)竞赛的8个代表性规划任务上系统评估了KRCL的性能,结果显示,KRCL的平均覆盖率显著优于其他对比规划器,证明了提出的基于神经-符号融合的双向规划器可以指导规划器寻找正确的解决方案,精准有效地解决规划任务。此外,还在用于评估大语言模型在规划任务中表现的基准数据集(PlanBench)上对所提出的方法与大型语言模型o1在规划任务中的性能进行了对比。实验结果表明,所提出的KRCL在规划覆盖率和规划效率方面均显著优于o1,进一步验证了该方法在规划任务中的优势。

KRCL通过神经和符号系统优势互补,能够有效提升规划性能。该新型规划器利用其强大的闭环反馈机制、精准的推理校正能力以及高效的自主规划特性,可为各类科学研究任务提供更可靠、更智能的规划工具。

图1. 人类运动学习的“反馈闭环”与对应的规划问题

图2 “神经-符号”融合新型规划器架构

图3.面向规划问题的自我控制机制


全文链接

附件: