图灵奖得主Sutton新作:用一个1967年的公式,解决流式强化学习一大缺陷

日期:2026-05-11 14:52:12 / 人气:4


一、行业痛点:难以突破的「流式壁垒」
2024年底,阿尔伯塔大学Mahmood团队发布论文《流式深度强化学习终于跑通了》(arXiv:2410.14606),揭露了强化学习领域一个尴尬且长期存在的行业通病。
强化学习本身的逻辑,本应是边走边学、即时迭代。但进入深度神经网络时代后,流式学习却几乎无法实现:只要去掉回放缓冲区、把batch批量大小设为1,模型训练就极易崩溃。学界将这一行业瓶颈命名为「流式壁垒」(Stream Barrier)。
此前该团队提出的StreamX算法,依靠复杂调参、稀疏初始化、多重稳定化技巧,勉强跨过流式壁垒,但优化手段繁杂、根源问题并未解决。
时隔不到一年半,该课题组联合Openmind研究院推出全新研究,直击问题本质:流式学习崩溃不在于数据太少,而在于传统算法步长单位选错了。
本次核心论文:《Intentional Updates for Streaming Reinforcement Learning》
论文地址:https://arxiv.org/pdf/2604.19033v1
开源代码:https://github.com/sharifnassab/Intentional_RL
二、通俗拆解:传统梯度步长的致命缺陷
2.1 生活化比喻:踩油门悖论
假设学习停车入库,教练固定要求每次踩油门0.1秒。但现实路况复杂:上坡、下坡、空载、载重,同等踩踏时长,车辆位移差距极大。轻则偏移几厘米,重则直接撞墙。
传统强化学习梯度更新,正是这套逻辑:固定参数移动幅度,完全不控制模型输出变化量。
2.2 批量训练vs流式训练
在批量训练模式下,海量样本互相平均,极端误差被稀释,缺陷不易暴露;
但流式训练每步仅有单个样本,无平均缓冲。梯度方向波动大、更新幅度忽大忽小,模型持续震荡,最终训练崩溃。
这种现象被定义为:过冲与欠冲(Overshooting and Undershooting)。在强化学习中尤为严重,梯度幅度、方向时刻处于动态变化中。
三、核心革新:意图更新,重新定义学习步长
3.1 核心思路:先定结果,再算步长
本次研究彻底颠覆传统逻辑:不再规定参数移动多少,而是直接规定模型输出需要改变多少。
该思想并非凭空创新,溯源至1967年Nagumo和Noda提出的NLMS(归一化最小均方差)算法。早期算法仅适用于简单线性模型,本次研究将其成功推广至深度强化学习。
3.2 意图更新(Intentional Updates)定义
在每一次模型更新前,明确本次学习目标,反向推导合理步长:
- 价值学习:单次更新,固定比例缩小预测误差(例如精准缩小5%),严格控制波动幅度;
- 策略学习:依据优势函数,限定动作选择概率的变化幅度,避免策略突变。
沿用驾车比喻:不再固定踩油门时长,而是先设定「车辆前进20厘米」,再根据坡度、载重自动计算踩踏深度,可控、稳定、可解释。
四、团队背景:图灵奖得主的基础科研布局
4.1 核心作者:Richard S.Sutton
2024年图灵奖得主,现代强化学习之父,行业地位类比物理学费曼。
行业贡献:提出时间差分学习(TD learning)、策略梯度;撰写行业圣经《Reinforcement Learning:An Introduction》。2024年与Andrew Barto共享图灵奖,颁奖评语:为强化学习奠定概念与算法基础。
4.2 科研理念
Sutton获奖后并未商业化套现,将奖金投入创立Openmind非营利研究院,专注无商业压力、纯粹基础科学研究。本篇论文正是该机构产出。
论文一作Sharifnassab,此前发表ICML 2025 MetaOptimize框架,长期深耕自适应学习率、智能步长优化,与本次研究一脉相承。
五、算法原理:极简优雅的数学逻辑
5.1 通用核心公式
步长 = 期望输出变化量 ÷ 梯度对输出的实际影响力
- 价值学习:以梯度向量范数衡量曲面陡峭程度,陡坡减小步长、缓坡放大步长,保证每轮更新幅度恒定;
- 策略学习:动作优化幅度绑定优势函数,结合滑动平均归一化,长期稳定策略迭代节奏。
5.2 工程融合优化
研究团队融合两大成熟技术,完善算法体系:
1. RMSProp对角缩放:解决不同参数维度量级不一致问题;
2. 资格迹(Eligibility Traces):实现奖励信号向历史时间步反向传播。
5.3 三套成型算法
- Intentional TD(λ):用于价值预测;
- Intentional Q(λ):用于离散动作控制;
- Intentional Policy Gradient:用于连续动作控制。
六、实验结果:极低算力,对标行业黄金标准
6.1 连续控制任务(MuJoCo)
在Ant、Humanoid、HalfCheetah等复杂机器人仿真任务中,流式模式(batch=1、无回放缓冲区)下的Intentional AC性能,比肩批量训练标杆算法SAC。
算力优势极其夸张:单次更新浮点运算量仅为SAC的1/140,低配硬件即可运行。
6.2 离散游戏任务(Atari/MinAtar)
Intentional Q-learning性能持平带回放缓冲区的DQN,且一套超参数适配全部任务,无需反复调参。
6.3 稳定性量化验证
简化实验下,实际更新量与预期更新量比值标准差仅为0.016~0.029,99分位数≤1.07;证明算法高度可控,真正做到设定更新多少,就更新多少。
七、现存缺陷与未来研究方向
7.1 当前局限性
策略学习中,步长依赖当前采样动作,不同动作被隐性加权,轻微偏移策略梯度原始方向。
实验分化明显:Humanoid系列任务偏差极小(余弦相似度0.96),Ant-v4任务对齐度仅0.63,偏差不可忽略。
7.2 未来优化方向
研发动作无关型步长策略,消除动作权重偏差,保证策略梯度无偏、稳定更新。
八、行业总结:AI学习范式的重大变革
8.1 两种训练范式对比
- 主流大模型:批量训练、海量数据、先学后用,训练完成权重冻结,无法实时进化;依赖高额GPU算力成本。
- 流式强化学习:单步迭代、即时学习、边用边学,贴合人类生物学习逻辑;算力成本极低,适配边缘设备。
8.2 应用场景
该算法不会取代批量大模型,但在机器人自主迭代、边缘智能设备、低算力终端、长期在线自适应系统中具备不可替代的价值。
8.3 核心结语
步长从来不是简单的超参数,而是AI每一次迭代的学习承诺。
从1967年的线性滤波公式,到如今Sutton团队的深度强化学习革新;从强行调参勉强跑通,到根源性解决流式壁垒。当AI能够精准控制每一步学习幅度,机器的学习逻辑,终于开始无限贴近人类。

作者:天富娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 天富娱乐 版权所有