每个算法都配同一个 grid world 例子并做了可视化。在浏览器里直接运行 notebook、 拖滑块看效果——把课本里的公式,变成你能上手调的东西。
这不是又一份讲义。
它是一套你能动手调的强化学习。
从基本概念到 Actor-Critic,所有算法都跑在同一个 grid world 上,方便横向对比、看清差异。
每章配一个可交互 notebook,无需本地环境,点开就能运行、改参数、重算。
策略、值函数、轨迹都做了可视化,拖动滑块就能看到算法一步步收敛的过程。
跟随赵世钰《数学原理》逐章实现,公式旁边就是能跑的实现,理论与代码一一对应。