OpenAI推出全新推理模型o3、o4-mini，以及一个编程智能体

4月17日凌晨，OpenAI正式宣布推出目前OpenAI系列里能力最强的推理模型——o3模型和o4-mini模型。

去年12月，OpenAI就预热过o3推理模型，当时强调的重点是o3模型在解决困难问题上的能力，要显著强于OpenAI第一代推理模型o1。

而此次正式发布中，OpenAI不仅强调了o3模型在能力上的领先性，同时还强调了o3的Agent能力，且强调o3是第一代能够在思维链中使用图像进行推理的模型。

自主调用工具是Agent能力最重要的体现。OpenAI表示，曾看到o3为了解一个特别难的任务，连续调用了大约600次工具。

随着OpenAI的O系列、DeepSeek R1等推理模型日趋成熟，业内普遍认为，只需一条指令即可完成整套任务的AI Agent能力将迎来显著提升。

相比于Google，Anthropic等从去年就开始宣传Agent能力，甚至已经开始推动MCP、A2A等Agent协议普及的公司，OpenAI之前在Agent能力上的布局相对缺失。而今天的发布，证明OpenAI在Agent能力上，仍然有自己的思考和布局。

OpenAI宣布，从今天开始，Plus、Pro和Team用户就可以使用o3模型和o4-mini模型了，接下来几周还会推出o3-pro模型，替代过去的o1-pro模型。

在彩蛋环节，OpenAI还表示，未来将发布一系列编程工具，重新定义AI时代的编程，首发的是一个叫Codex CLI的开源轻量化编程agent。Codex CLI可以直接使用OpenAI的模型（最终包括o3和o4-mini），接管本地计算机终端命令行界面，直接进行代码编写和文件移动等等。

OpenAI的展示很有意念编程（vibe coding）的味道了：直接在网页上截图了一个别人编程好的效果图，丢给Codex CLI，跟它说做一个html文件复现这个效果，并做一些改动。很快，Codex CLI就自己写了代码，调用了系统工具，复现出了一个类似的效果。

OpenAI今日的发布大致符合预期——o3和 o4-mini已经预热多时，视觉推理与Agent能力也早已在其他公司的模型中有所体现。

不过，从今天的发布中仍能看出OpenAI在Agent等前沿方向上的布局节奏，以及将已有能力产品化的独特能力。

OpenAI的模型迭代，也再一次重新肯定了后训练Scaling Law的存在。目前看来，AI模型在接下来几年，仍然会出现能力的快速进化，还未到达瓶颈。

OpenAI的Agent能力，目前更多的是调用自身的工具

OpenAI此次发布的一大亮点在于Agent的能力。最初的两个展示都与工具调用能力有关。

第一个展示是研究员给了OpenAI一个十年前写过的论文图片，让o3模型找到一个特定的结果，并和最新的研究成果进行比较。

o3模型首先利用内置的视觉推理能力，放大图片，找到了研究员想要的特定结果，然后根据图片中的内容进行推理，算出了论文推导的数值，然后使用搜索功能，查找了十篇论文，比较了最新研究成果与作者十年前论文的结果的区别，最后给出了自己的建议。

第二个演示是研究员问OpenAI，根据我的兴趣，读新闻，告诉我一些我可能感兴趣的事情。

这个演示则利用的是OpenAI内置的记忆工具——OpenAI几天前刚刚宣布OpenAI的模型目前有了可以访问用户全量记忆的能力。

o3模型先是访问记忆后，找出用户喜欢水肺潜水和弹奏音乐，然后利用搜索功能，找到了一条交叉两条兴趣的新闻：研究人员会录下健康珊瑚礁的声音，然后用水下扬声器在海里播放这些声音，以保护珊瑚。

最后o3模型使用了OpenAI的canvas工具和数据分析工具，生成了一个漂亮的博客界面，完成了任务。

可以看到，在OpenAI目前的布局当中，Agent能力更多的是调用OpenAI的内部工具。

不过，在基础的工具调用能力水平存在的情况下，如果想要接入其他工具，似乎也并不是很难。OpenAI今年3月刚刚宣布接入MCP协议，为之后使用其他工具打下了基础。

o4-mini 表现出色，RL的Scaling Law仍在起作用

虽然在去年12月OpenAI曾经预热过o3模型的具体能力，这次正式发布，官方表示因为进行了「对推理成本和实用性做了大量优化」，在评测结果上，OpenAI表示可能会有差别。

在发布会直播中，OpenAI展示了几组测试结果，o3模型和o4-mini模型在数学能力、代码能力和多模态能力上都表现出色：

OpenAI推出全新推理模型o3、o4-mini，以及一个编程智能体

干货教程更多>>