Discovering state-of-the-art reinforcement learning algorithms Abs本文提出一种纯数据驱动的元学习方法,让机器自主发现强化学习更新规则,而无需人类手工设计。作者用一个“元网络”输出策略与预测的目标分布,驱动大量智能体在复杂环境中并行交互;元网络本身再通过元梯度优化,以最大化长期回报。最终得到的规则 DiscoRL 在 57 款 Atari 游戏上刷新 SOTA(IQM 13.86),并在 ProcGen、Crafter、NetHack 等完全未见的任务上超越或媲美 MuZero、PPO 等主流手工算法。论文首次证明:随着训练环境数量与多样性增加,机器自动发现的更新规则可单调提升泛化性能,实现“AI 自己设计 RL 算法”。 1. Intro背景 现有 RL 成功算法(DQN、PPO、MuZero)均依赖人类专家多年手工设计,耗时且受限于直觉。 生物进化却在漫长试错中自动产生了适用于动物的高效学习机制。 开放问题 手工设计更新规则效率低、难以突破人类认知盲区。 早期“自动发现 RL”工作搜索空间窄(仅调超参或损失系数),且只在格子世界等简单任务验证,无法与主流算法公平竞争。 本文贡献 提出完全自主的元学习框架:用元网络参数化整个更新规则(策略+预测目标),让智能体在大规模复杂环境种群中交互,并通过元梯度优化元网络。 搜索空间覆盖既有概念(价值、策略、辅助任务)与任意新预测,可重新发现现有算法或创造全新目标。 发现的 DiscoRL 在 Atari57 上 IQM 13.86 刷新 SOTA,并在 ProcGen、Crafter、NetHack 等未见任务上超越 MuZero、PPO。 证明随训练环境数量与多样性增加,所得规则通用性与效率单调提升,首次在最具挑战性基准上全面超越人工。 2. Background 概念 说明 元学习 “学会如何学”,外层慢速优化器调整内层快速学习算法。 元梯度 将内层学习过程展开,通过链式法则求外层参数梯度;本文首次用于发现完整更新规则。 Bootstrapping 用未来预测构造当前学习目标(TD、Q-learning);元网络天然支持任意步长 bootstrap。 Atari57 / ProcGen / Crafter 标准 RL 基准:需长期信用分配、泛化或多技能生存,测样本效率与通用性。 价值 vs 策略 传统 RL 手工指定“预测什么”与“如何更新”;本文把两部分全部交由元网络自动发现。 3. Method3.1 总体思路观察到任何 RL 算法核心都是“把预测/策略朝某个目标更新”,而目标无非是对未来奖励/预测的函数。于是: 用通用函数逼近器(元网络)输出这些目标; 让大量智能体在复杂环境中并行交互,形成双层优化: 内层:智能体按元网络目标更新自身参数; 外层:元梯度优化元网络,使所有智能体长期回报最大。 3.2 Agent 网络:可发现语义的预测空间 除手工给出的动作价值 $q(s,a)$ 与辅助策略 $p(s,a)$ 外,智能体还输出两组无语义向量: $y(s)\in\mathbb{R}^n$:仅依赖观测(可表示 V、后继特征等) $z(s,a)\in\mathbb{R}^m$:同时依赖动作(可表示 Q、动作-条件回报等) 形式覆盖现有概念,但不限于此,留给元网络自由发明新预测。 3.3 元网络:参数化整个更新规则 输入:一段轨迹内智能体输出 $\{\pi,y,z,q\}$、奖励 $r$、终止标志 $b$;用LSTM 反向展开可看任意步未来。 输出:为目标策略 $\hat\pi$、预测 $\hat y,\hat z,\hat q,\hat p$ 生成目标分布。 关键设计 不直接看像素,只看智能体预测→对观测空间通用; 动作维度共享权重→任意离散动作数; 天然支持 bootstrap:未来 $y,z$ 再次输入形成当前目标。 可选增强:meta-RNN 沿“参数更新轴”前向展开,可跟踪生命周期统计量(如回报均值),从而发现奖励归一化等技巧。 3.4 双层优化公式 Agent Loss(内层,一条轨迹内采样得到)$$ L(\theta)=\mathbb{E}_{(s,a)\sim\pi_\theta}\Bigl[D_{\text{KL}}(\hat\pi\|\pi_\theta)+D_{\text{KL}}(\hat y\|y_\theta)+D_{\text{KL}}(\hat z\|z_\theta)+D_{\text{KL}}(\hat q\|q_\theta)+D_{\text{KL}}(\hat p\|p_\theta)\Bigr] $$只有 $(s,a)$ 采样分布来自环境探索;其余目标均由元网络计算。 Eg. 在 PPO 中,公式里所有带帽子的目标量 $\hat\pi,\hat y,\hat z,\hat q,\hat p$ 都只由当前轨迹的样本和手工代数式计算得出,不含任何可学习参数。它们就是 PPO 为人类设计算法所定义的“更新方向”,对应关系如下: 符号 在 PPO 中的具体含义 如何由轨迹闭式算出 $\hat\pi$ 策略目标分布 指数加权优势:$\hat\pi(a \mid s)\propto\pi_{\theta_{\text{old}}}(a \mid s)\cdot\exp\!\bigl(A_t/\varepsilon\bigr)$ $\hat q$ 动作价值目标 广义优势返回:$\hat q(s_t,a_t)=A_t+V_{\theta}(s_t)$ $\hat y$ 观测-条件预测目标 在 PPO 中未显式定义,可退化为 0 或恒向量 → 对应空预测 $\hat z$ 动作-条件预测目标 同样未显式定义,可退化为 0 或动作独热 → 空预测 $\hat p$ 辅助策略目标 通常设为 下一状态策略 $\pi_{\theta}(s_{t+1})$(用于一致性正则) 因此,在纯 PPO 场景下: $\hat\pi$ 与 $\hat q$ 是真正驱动更新的目标; $\hat y,\hat z$ 为空(或常数),表示“不额外学习新预测”; $\hat p$ 只是辅助正则项,保持动作预测一致性。 它们全部只依赖同一条轨迹内的样本和手工公式,权重固定,可以视为“静态元网络”。 Meta Objective(外层)$$ J(\eta)=\mathbb{E}_{\mathcal{E}}\Bigl[\mathbb{E}_\theta\bigl[\textstyle\sum\gamma^t r_t\bigr]\Bigr],\quad \nabla_\eta J\approx \mathbb{E}_{\mathcal{E}}\Bigl[\nabla_\eta\theta\cdot\nabla_\theta J(\theta)\Bigr] $$回传 20 步 Agent 更新(滑动窗口),用 A2C 估计优势;群体梯度经 Adam 预处理后平均,并加入熵正则与 KL 平滑防止崩溃。 3.5 规模与实现 Disco57:128 智能体循环 57 款 Atari,1024 TPUv3×64 h,≈6 亿步/游戏。 Disco103:加入 ProcGen & DMLab-30,共 206 智能体,2048 TPUv3×60 h。 JAX 全分布式,90 % 回放数据提升样本效率;代码与 Disco103 元参数已开源。 4. Evaluation 基准 设置 主要对手 结果 Atari57 200 M 帧,网络大小=MuZero MuZero, Dreamer, Muesli, PPO, Rainbow Disco57 IQM 13.86 刷新 SOTA,Wall-clock 省 40 %。 ProcGen 16 游戏 500 lvl 训练/1000 lvl 测试 PPO, MuZero, IMPALA Disco57 平均人类归一化 0.84,全面领先。 Crafter 1 M / 20 M 步 Dreamer, Rainbow, PPO Disco103 1 M 步即人类水平(>50 % 成功率)。 NetHack NeurIPS’21 无领域知识 40+ 队 top-4 Disco57 平均第 3,仅次专用手工规则。 Sokoban 未在训练集 MuZero Disco103 接近 MuZero SOTA。 消融与规模 去掉 $y,z$ → Atari IQM 降 35 %;去掉 bootstrap → 降 50 %;仅用 57 个格子世界 → 降 70 %,验证必须用复杂环境。 最佳规则 3 个生命周期(≈6 亿步/游戏)即出现;训练环境从 10→57→103,ProcGen 性能单调提升,展现良好规模效应。 5. Conclusion核心创新 把“发现整个 RL 更新规则”抽象为双层元优化,用元网络参数化“预测/策略目标”,搜索空间与表达力量级提升。 首次在大规模复杂环境种群上跑通元梯度,证明所得规则通用性随数据与计算自然扩展,彻底摆脱简单任务局限。 意义为“AI 自己设计学习算法”提供可扩展范式:继续增加环境与算力,有望自动涌现更高级、人类尚未想到的 RL 机制,降低人工设计成本,面向新领域(科学计算、多模态、具身智能)只需提供任务分布即可自动生成高效算法。 paper-reading > machine-learning #machine-learning #reinforcement-learning Discovering state-of-the-art reinforcement learning algorithms https://blog.xiaoaojianghu.fun/posts/73f8e17d.html 作者 wst 发布于 2025年10月31日 许可协议 ODE第五次作业 上一篇 泛函分析第十次作业 下一篇 Please enable JavaScript to view the comments