RL学习小结 (001): 基本概念、贝尔曼方程学习分享本文系统介绍了强化学习的核心概念,包括状态、动作、策略、奖励和回报等基本术语;随后展示了如何使用马尔可夫决策过程(MDP)对强化学习问题进行数学建模;最后推导了状态值函数和动作值函数的贝尔曼方程。2025-8-31 强化学习