OpenAI o3-mini 正式发布!人人都能免费使用

OpenAI o3-mini,是推理系列中最新、最具成本效益的模型,现已在 ChatGPT 和 API 中提供。这款功能强大且快速的模型于 2024 年 12 月进行了预览,它突破了小型模型所能实现的界限,提供了卓越的 STEM 功能(尤其擅长科学、数学和编码),同时保持了 OpenAI o1-mini 的低成本和低延迟。

0b40b0a59a20250203214135

官方免费使用:【链接直达

进入打开里面的推荐按钮即可,就可以直接开启 OpenAI o3-mini 模型深度推理功能!

56155719fe20250203214104

快速、强大且针对 STEM 推理进行了优化

与前身 OpenAI o1 类似,OpenAI o3-mini 已针对 STEM 推理进行了优化。o3-mini 的中等推理努力与 o1 在数学、编码和科学方面的表现相当,同时响应速度更快。专家测试人员的评估表明,与 OpenAI o1-mini 相比,o3-mini 的答案更准确、更清晰,推理能力更强。测试人员在 56% 的时间里更喜欢 o3-mini 的回答,并观察到在困难的现实问题上重大错误减少了 39%。在中等推理努力下,o3-mini 在一些最具挑战性的推理和智力评估(包括 AIME 和 GPQA)上的表现与 o1 相当。

竞赛数学(AIME 2024)

条形图比较了不同 AI 模型在 AIME 2024 竞赛数学题目上的准确率。较旧的模型(灰色)得分较低,而较新的模型(黄色)得分有所提高。“o3-mini(高)”的准确率最高,为 83.6%,显示出显著的进步。

数学:在较低的推理努力下,OpenAI o3-mini 实现了与 OpenAI o1-mini 相当的性能,而在中等努力下,o3-mini 实现了与 o1 相当的性能。同时,在较高的推理努力下,o3-mini 的表现优于 OpenAI o1-mini 和 OpenAI o1,其中灰色阴影区域显示了 64 个样本的多数投票(共识)性能。

博士级科学问题(GPQA Diamond)

条形图比较了不同 AI 模型在博士级科学问题(GPQA Diamond)上的准确率。旧模型(灰色)表现较差,而新模型(黄色)表现有所改善。“o3-mini(高)”的准确率达到 77.0%,与早期版本相比有显著进步。

博士级科学:在博士级生物学、化学和物理学问题上,OpenAI o3-mini 在推理工作量较少的情况下,其性能优于 OpenAI o1-mini。在付出较大努力的情况下,o3-mini 的性能可与 o1 相媲美。

数学前沿

黑色网格具有多行和多列,由细白线隔开,从而创建了结构化且有组织的布局。

研究级数学:具有高推理能力的 OpenAI o3-mini 在 FrontierMath 上的表现优于其前身。在 FrontierMath 上,当被提示使用 Python 工具时,具有高推理能力的 o3-mini 在第一次尝试时解决了超过 32% 的问题,其中包括超过 28% 的具有挑战性的 (T3) 问题。这些数字是临时的,上图显示了没有工具或计算器时的性能。

竞赛规则(Codeforces)

条形图比较了不同 AI 模型在 Codeforces 竞赛编码任务上的 Elo 评分。较旧的模型(灰色)得分较低,而较新的模型(黄色)得分有所提高。“o3-mini(高)”的 Elo 评分达到 2073,与之前的版本相比有显著进步。

竞赛编程:在 Codeforces 竞赛编程中,OpenAI o3-mini 随着推理努力的增加而获得越来越高的 Elo 分数,均优于 o1-mini。在中等推理努力下,它的表现与 o1 相当。

软件工程(SWE-bench 验证)

条形图比较了各个 AI 模型在 SWE-bench Verified 软件工程任务上的准确率。较旧的模型(灰色)表现较差,而“o3-mini(高)”(黄色)的准确率最高,为 48.9%,与之前的版本相比有所改进。

软件工程:o3-mini 是我们在 SWEbench 验证中性能最高的发布模型。有关 SWE-bench 验证结果的更多数据点,包括使用开源 Agentless 脚手架(39%)和内部工具脚手架(61%),请参阅我们的系统卡⁠ ⁠

LiveBench 编码

该表比较了人工智能模型在编码任务上的表现,显示了性能指标和评估分数。它突出了准确度和效率方面的差异,一些模型在特定基准上的表现优于其他模型。

LiveBench 编码:OpenAI o3-mini 即使在中等推理工作量下也超越了 o1-high,凸显了其在编码任务中的效率。在高推理工作量下,o3-mini 进一步扩大领先优势,在关键指标上实现了显著增强的性能。

常识

名为“类别评估”的表格比较了不同评估类别的 AI 模型,并显示了性能指标。它突出了准确性、效率和有效性方面的差异,一些模型在特定任务上的表现优于其他模型。

常识:o3-mini 在常识领域的知识评估中表现优于 o1-mini。

人类偏好评估

该图表比较了各个 AI 模型中 STEM 和非 STEM 任务的胜率。“o3_mini_v43_s960_j128”(黄色)在两个类别中的表现均优于“o1_mini_chatgpt”(红色基线),且 STEM 任务的胜率更高。
该图表比较了时间约束下的胜率和各个 AI 模型的重大错误率。“o3_mini_v43_s960_j128”(黄色)的胜率优于“o1_mini_chatgpt”(红色基线),并且显著减少了重大错误。

人类偏好评估:外部专家测试人员的评估还表明,OpenAI o3-mini 的答案更准确、更清晰,推理能力比 OpenAI o1-mini 更强,尤其是在 STEM 方面。测试人员在 56% 的时间里更喜欢 o3-mini 的回答,而不是 o1-mini,并且观察到在困难的现实问题上重大错误减少了 39%。

模型速度和性能

OpenAI o3-mini 的智能可与 OpenAI o1 媲美,但性能更快、效率更高。除了上述 STEM 评估之外,o3-mini 还在中等推理工作量的额外数学和事实性评估中表现出色。在 A/B 测试中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。

o1-mini 与 o3-mini 之间的延迟比较(中等)

条形图比较了“o1-mini”和“o3-mini(中)”型号之间的延迟。“o3-mini”(浅黄色)的延迟较低,表明响应时间更快,而“o1-mini”(深黄色)平均需要更长的时间。

延迟:o3-mini 的第一个令牌平均比 o1-mini 快 2500 毫秒。

安全

我们用来教 OpenAI o3-mini 安全响应的关键技术之一是审慎对齐,即在回答用户提示之前,我们训练模型推理人类编写的安全规范。与 OpenAI o1 类似,我们发现 o3-mini 在具有挑战性的安全性和越狱评估方面明显超越了 GPT-4o。在部署之前,我们仔细评估了 o3-mini 的安全风险,采用了与 o1 相同的准备、外部红队和安全评估方法。我们感谢申请在早期访问中测试 o3-mini 的安全测试人员。以下评估的详细信息以及对潜在风险和我们缓解措施有效性的全面解释可在o3-mini 系统卡中找到。

不允许的内容评估

该表比较了人工智能模型的安全指标,评估了不同风险类别下的表现。它突出了安全合规性方面的差异,一些模型在降低潜在风险方面表现更好。

越狱评估

该表比较了多个风险类别的人工智能模型的安全指标,显示了其性能差异。它突出了风险缓解方面的差异,一些模型表现出更强的合规性和更安全的响应能力。

下一步

OpenAI o3-mini 的发布标志着 OpenAI 向突破高性价比智能界限的使命又迈进了一步。通过优化 STEM 领域的推理并保持低成本,我们让高质量的人工智能更加触手可及。该模型延续了我们降低智能成本的记录——自推出 GPT-4 以来,每个代币的价格降低了 95%——同时保持了顶级的推理能力。随着人工智能的普及,我们仍致力于走在前沿,构建能够平衡智能、效率和安全性的大规模模型。

THE END
喜欢就支持一下吧
点赞1985 分享
对印第一安纳波利斯房局的勒索软件攻击泄露了 200,000 名居民的敏感信息-零度博客

对印第一安纳波利斯房局的勒索软件攻击泄露了 200,000 名居民的敏感信息

印第安纳波利斯住房局通知超过 200,000 人,他们的信息(包括社会安全号码等)在 9 月份开始的勒索软件攻击中泄露。 由联邦的机构负责为印第安纳波利斯印第安纳波利斯低收入租户住房。。。。。...
admin的头像-零度博客admin
1.2W+6539
大量 Citrix 服务器容易受到修补的严重缺陷的影响-零度博客

大量 Citrix 服务器容易受到修补的严重缺陷的影响

数以千计的 Citrix ADC 和网关部署仍然容易受到供应商最近几个月修复的两个严重安全问题的影响。 第一个缺陷是CVE-2022-27510,已于 11 月 8 日修复。它是一种影响两种 Citrix 产品的身份验证绕...
admin的头像-零度博客admin
1.2W+6539
Windows 11 开始默认不读取A:\软驱-零度博客

Windows 11 开始默认不读取A:\软驱

Windows的设备管理器,仍然是非常重要的管理PC上的硬件和驱动或排除故障的默认程序,而现在它在Windows 11上有一些小的改进。如果你的驱动程序有问题,或者计算机制造商希望你从他们的网站上安...
admin的头像-零度博客admin
1.6W+2250
如何更改哪些 Facebook 好友可以在线看到您-零度博客

如何更改哪些 Facebook 好友可以在线看到您

可以在 Facebook 上维护隐私。以下是如何确定哪些 Facebook 朋友可以在线看到您,哪些不能。 Facebook 对自己的目标持开放态度:公司梦想一个每个人都可以随时联系的世界。也许这就是为什么在 F...
admin的头像-零度博客admin
1.6W+2251
赶紧下载!8款“限时免费”的软件,得到即赚到!!帮你省下好几百刀... | 零度解说-零度博客

赶紧下载!8款“限时免费”的软件,得到即赚到!!帮你省下好几百刀… | 零度解说

https://youtu.be/HtfEiX9ACjs =================== 限时免费软件获取:https://www.freedidi.com/10913.html
admin的头像-零度博客admin
1.7W+1683
Lastpass 出事了! 用户密码数据被盗,你现在需要立即修改它们! | 零度解说-零度博客
Z-Library 被美国FBI再次黑掉登录域,但每个用户的秘密 URL 仍然有效-零度博客

Z-Library 被美国FBI再次黑掉登录域,但每个用户的秘密 URL 仍然有效

Z-Library 避免因俄罗斯人面临刑事指控而关闭个人 URL。 美国当局已经没收了另一个主要的 Z-Library 域,但仍无法从互联网上清除盗版图书网站。Z-Library 声称提供超过 1300 万册图书,高于去年...
admin的头像-零度博客admin
1.3W+6539
日本奥运会 投放15万个避孕套!为什么这么做?都是给谁准备的?老司机的福利!-零度博客
AI 即将出现在您的 Web 浏览器中!如何使用它?-零度博客

AI 即将出现在您的 Web 浏览器中!如何使用它?

Microsoft Edge 和其他浏览器内置了强大的工具来帮助你编写电子邮件、生成图像等。 人工智能有多年来一直在我们的应用程序和小工具的幕后工作——解释我们的语音命令、推荐音乐播放列表、在我们...
admin的头像-零度博客admin
1.3W+6539