只要强化学习1/10成本!翁荔的Thinking Machines盯上了Qwen的黑科技
用1/10成本就能「吊打」强化学习,Thinking Machines最新一篇文章开源的这个策略,不看真OUT了!可在Tinker直接复现。
现在的大模型在特定领域能够达到专家级表现已经不足为奇。
但是能不能让模型变小的同时,也能在特定领域达到接近专家级表现?
现在通常的答案就是「模型蒸馏」(Model Distillation)。
比如DeepSeek-R1发布时,顺带着也发布了多个蒸馏模型(R1模型参数为671B,蒸馏模型都比较小,1.5B、7B、14B等)。

那还有没有更好的办法?
这就是今天要讲的On-Policy Distillation(同策略/在线策略蒸馏)。
这是一个Thinking Machines整的新活,这个新策略既有强化学习等在线策略方法的相关性和可靠性;又具备离线策略(Off-policy)方法的数据效率。

Mira Murati认为这个策略可以让小模型提升特定领域的表现,还能持续学习。

Lilian Weng夸赞新方法「优雅」。认为这个策略提供了一种优雅的方式,将教师模型作为过程奖励模型来提供稠密奖励。

特别声明:以上内容(如有图片或视频亦包括在内)为“我要久久发用户上传并发布”,本平台仅提供信息存储服务。
热门文章
- 1024程序员节京东开放“零帧起手”数字人技术
- 内置24000转/分钟风扇!红魔11 Pro图赏
- W47单品销量,小米17 Pro Max真牛,同档国产全没上榜
- 红魔11 Air证件照公布:骁龙8至尊版、7000mAh电池
- 贝尔金发布70W氮化镓三口快充头,售316元
- 英特尔Nova Lake曝光:旗舰52核怪兽,性能核IPC涨15%
- 一张图看懂智驾"安全公开课"嘉宾精彩观点
- 灵隐寺免门票首日入园名额已约满
- 黄河壶口瀑布现“彩虹横卧”景观
- 两个“1980” 苏翊鸣强势夺金
- 男子花1年定制2米高可通话摩托罗拉
- 长沙连续17年获中国最具幸福感城市
- 刘强东:未来机器人会完成所有工作
- 300元滑雪服被冻哭的年轻人焊身上了
- 退休老人不抢鸡蛋抢起了船票
- 大脑“断崖式衰老”的3个年龄
- 老君山景区拒绝用无人机取代挑山工
- 解读智己LS9,标配520线激光雷达+Thor芯片,究竟有啥不同?
- 联想提出RNL技术,通过多维感知等解决AI训练中的难题
- 曝特斯拉曾拆解多款中国电动汽车