只要强化学习1/10成本!翁荔的Thinking Machines盯上了Qwen的黑科技
用1/10成本就能「吊打」强化学习,Thinking Machines最新一篇文章开源的这个策略,不看真OUT了!可在Tinker直接复现。
现在的大模型在特定领域能够达到专家级表现已经不足为奇。
但是能不能让模型变小的同时,也能在特定领域达到接近专家级表现?
现在通常的答案就是「模型蒸馏」(Model Distillation)。
比如DeepSeek-R1发布时,顺带着也发布了多个蒸馏模型(R1模型参数为671B,蒸馏模型都比较小,1.5B、7B、14B等)。

那还有没有更好的办法?
这就是今天要讲的On-Policy Distillation(同策略/在线策略蒸馏)。
这是一个Thinking Machines整的新活,这个新策略既有强化学习等在线策略方法的相关性和可靠性;又具备离线策略(Off-policy)方法的数据效率。

Mira Murati认为这个策略可以让小模型提升特定领域的表现,还能持续学习。

Lilian Weng夸赞新方法「优雅」。认为这个策略提供了一种优雅的方式,将教师模型作为过程奖励模型来提供稠密奖励。

特别声明:以上内容(如有图片或视频亦包括在内)为“我要久久发用户上传并发布”,本平台仅提供信息存储服务。
热门文章
- 1000个官方媒体网站发布广告,每天百万人次曝光,帮您客户覆盖全国,业绩翻倍!
- 存好!想在四川找“铁饭碗”,死盯这些央国企
- 一加 15T或为骁龙 8E5小屏旗舰,预计3月发布,电池突破7500mAh
- 小米REDMI Turbo 5 Max首发天玑9500s芯片,本月见
- iQOO Z11 Turbo 评测:黄金中屏兼顾更全能的体验
- 战斗精灵降临!iQOO Z11 Turbo定义中屏新标杆
- 无需ROOT!支持温控调节和自定义频率,真我Neo8配置曝光
- 泡泡玛特“牵手”荣耀 潮玩手机下周一发布
- TCL A400 Pro实测:艺术电视也能兼顾画质与实用
- 苹果推出Apple Creator Studio订阅服务,买断版与订阅版可共存
- 力压苹果!华为手机2025年重返中国第一背后:还没完全发力 仍有上涨空间
- vivo总裁兼首席执行官沈炜入选“2025年度手机行业六大杰出人物”
- 干掉防窥膜!国外博主体验三星S26 Ultra,称隐私显示功能太强大
- 三星显示启动8.6代OLED量产
- 三星确认Galaxy AI基础功能继续免费,覆盖通话助手、写作助手等服务
- 三星优化产线布局,年内关闭一座8英寸晶圆代工厂
- 多地省考放宽35岁年龄限制
- 16G内存条的价格涨幅超过3倍
- 观致汽车厂再流拍 6万人围观1人报名
- 新能源汽车废旧动力电池新规来了