首页 > 实用技巧 > 干货教程 > OpenAI推出全新推理模型o3、o4-mini,以及一个编程智能体

OpenAI推出全新推理模型o3、o4-mini,以及一个编程智能体

发布时间:2025-04-17 11:49:33来源: 13041198719

4月17日凌晨,OpenAI正式宣布推出目前OpenAI系列里能力最强的推理模型——o3模型和o4-mini模型。

去年12月,OpenAI就预热过o3推理模型,当时强调的重点是o3模型在解决困难问题上的能力,要显著强于OpenAI第一代推理模型o1。

而此次正式发布中,OpenAI不仅强调了o3模型在能力上的领先性,同时还强调了o3的Agent能力,且强调o3是第一代能够在思维链中使用图像进行推理的模型。

自主调用工具是Agent能力最重要的体现。OpenAI表示,曾看到o3为了解一个特别难的任务,连续调用了大约600次工具。

随着OpenAI的O系列、DeepSeek R1等推理模型日趋成熟,业内普遍认为,只需一条指令即可完成整套任务的AI Agent能力将迎来显著提升。

相比于Google,Anthropic等从去年就开始宣传Agent能力,甚至已经开始推动MCP、A2A等Agent协议普及的公司,OpenAI之前在Agent能力上的布局相对缺失。而今天的发布,证明OpenAI在Agent能力上,仍然有自己的思考和布局。

OpenAI宣布, 从今天开始,Plus、Pro和Team用户就可以使用o3模型和o4-mini模型了,接下来几周还会推出o3-pro模型,替代过去的o1-pro模型。

在彩蛋环节,OpenAI还表示,未来将发布一系列编程工具,重新定义AI时代的编程,首发的是一个叫Codex CLI的开源轻量化编程agent。Codex CLI可以直接使用OpenAI的模型(最终包括o3和o4-mini),接管本地计算机终端命令行界面,直接进行代码编写和文件移动等等。

OpenAI的展示很有意念编程(vibe coding)的味道了:直接在网页上截图了一个别人编程好的效果图,丢给Codex CLI,跟它说做一个html文件复现这个效果,并做一些改动。很快,Codex CLI就自己写了代码,调用了系统工具,复现出了一个类似的效果。

OpenAI今日的发布大致符合预期——o3和 o4-mini已经预热多时,视觉推理与Agent能力也早已在其他公司的模型中有所体现。

不过,从今天的发布中仍能看出OpenAI在Agent等前沿方向上的布局节奏,以及将已有能力产品化的独特能力。

OpenAI的模型迭代,也再一次重新肯定了后训练Scaling Law的存在。目前看来,AI模型在接下来几年,仍然会出现能力的快速进化,还未到达瓶颈。

OpenAI的Agent能力,目前更多的是调用自身的工具

OpenAI此次发布的一大亮点在于Agent的能力。最初的两个展示都与工具调用能力有关。

第一个展示是研究员给了OpenAI一个十年前写过的论文图片,让o3模型找到一个特定的结果,并和最新的研究成果进行比较。

o3模型首先利用内置的视觉推理能力,放大图片,找到了研究员想要的特定结果,然后根据图片中的内容进行推理,算出了论文推导的数值,然后使用搜索功能,查找了十篇论文,比较了最新研究成果与作者十年前论文的结果的区别,最后给出了自己的建议。

第二个演示是研究员问OpenAI,根据我的兴趣,读新闻,告诉我一些我可能感兴趣的事情。

这个演示则利用的是OpenAI内置的记忆工具——OpenAI几天前刚刚宣布OpenAI的模型目前有了可以访问用户全量记忆的能力。

o3模型先是访问记忆后,找出用户喜欢水肺潜水和弹奏音乐,然后利用搜索功能,找到了一条交叉两条兴趣的新闻:研究人员会录下健康珊瑚礁的声音,然后用水下扬声器在海里播放这些声音,以保护珊瑚。

最后o3模型使用了OpenAI的canvas工具和数据分析工具,生成了一个漂亮的博客界面,完成了任务。

可以看到,在OpenAI目前的布局当中,Agent能力更多的是调用OpenAI的内部工具。

不过,在基础的工具调用能力水平存在的情况下,如果想要接入其他工具,似乎也并不是很难。OpenAI今年3月刚刚宣布接入MCP协议,为之后使用其他工具打下了基础。

o4-mini 表现出色,RL的Scaling Law仍在起作用

虽然在去年12月OpenAI曾经预热过o3模型的具体能力,这次正式发布,官方表示因为进行了「对推理成本和实用性做了大量优化」,在评测结果上,OpenAI表示可能会有差别。

在发布会直播中,OpenAI展示了几组测试结果,o3模型和o4-mini模型在数学能力、代码能力和多模态能力上都表现出色:

干货教程更多>>

牛掰1399元8.8寸电竞平板深度体验小尺寸平板骁龙7+Gen3仅千元档 荣威IMAX8的配置比GL8还香吗?真实车主告诉你值不值! 解码地平线、Momenta 背后的“上汽力量”:以人-车-生活为支点,实现智能化生态平权进阶 何小鹏的雄心:从造车到飞行汽车与机器人小鹏要做“中国特斯拉” 为什么英伟达显卡比AMD卖得更贵,但仍然销量很不错? 索泰(ZOTAC)GEFORCE RTX 5070 12GB XGAMING显卡测试 随便刷机玩!零刻ME mini NAS迷你主机,可玩性还挺高! 广汽集团新注册《汽车车体约束模态建模分析一体化软件V1.0》项目的软件著作权 首个人形机器人半马完赛,天工Ultra冲线夺冠 “打造人人爱用的智能驾驶产品”,地平线发布L2城区辅助驾驶系统HSD “杭州六小龙”爆火出圈后,浙江高规格部署人工智能发展 AI赋能,新能源汽车产业在“智”与“竞”中前行 京东超市百亿农补一周年成绩单发布:投入35亿 价格优化20% 2500万消费者省下近10亿 合肥人都在看!二手房成交top100小区,均价揭晓 广州五一买房人必看!层高3米的新房,藏着多少居住惊喜呢? 6300mAh大电池!荣耀全新千元神机即将开售,搭载高通经典神U 一加 13T 吊打 iPhone 16?安卓小屏机这波操作直接让果粉沉默! 荣耀GT Pro手机参数曝光:骁龙8 Eite领先版,7200mAh电池 选购电视看过来!TCL T7L Pro 凭啥脱颖而出? 深冷黑科技+双系统设计 TCL冰麒麟冰箱解锁食材保鲜新境界 王腾暗示红米新机售价,继续升级,越级迎战友商! 雷军说:所有人都说小米造车晚,小米来得正是时候 华为折叠屏手机价格引争议,这5款大内存机型更值得买 OPPO Reno14系列再次被确认:天玑8350+金属中框,开始下放长焦! 首搭地平线HSD,九月正式量产,星途这款新车是SUV还是MPV? 比亚迪腾势首款概念超跑将于2025上海车展亮相 人民之选,五菱:新能源时代的“国民神车”传奇 宝骏享境:新能源轿车,性价比之王!这次能坐上头把交椅吗? 哈弗H5车长5米2,全系四驱带差速锁12.78万起,有什么优缺点? 郑州日产 Z9 上市:双动力 + 10 种模式,家用越野一车满足全场景需求