GPT-5.2是 OpenAI 最新的旗舰AI模型,于2025年12月11日发布。 继 GPT-5.1之后,它是GPT系列中的三个大型语言模型家族。它提供两种模式:GPT-5.2 即时和 GPT-5.2 思考,后者为推理模型。GPT-5.2 Pro模型于同日发布,其推理时间和计算量均高于GPT-5.2思考模式。

目前,一般 ChatGPT Enterprise 用户表示,AI 每天能为他们节省 40–60 分钟;而重度用户甚至表示,每周能节省超过 10 小时。我们打造了 GPT‑5.2,旨在帮助人们创造更大的经济价值。该模型在制作电子表格、设计演示文稿、编写代码、识别图像、理解长文本上下文、使用工具以及处理复杂的多步骤项目方面表现更佳。
GPT‑5.2 在众多基准测试中都刷新了行业水平,包括 GDPval。在该评测中,它在涵盖 44 个职业的明确知识型工作任务上超越了行业专家。
| GPT-5.2 Thinking | GPT-5.1 Thinking | |
| GDPval(胜出或持平) 知识型工作任务 |
70.9% | 38.8% (GPT-5) |
| SWE-Bench Pro(公开版) 软件工程 |
55.6% | 50.8% |
| SWE-bench Verified 软件工程 |
80.0% | 76.3% |
| GPQA Diamond(无工具) 科学问题 |
92.4% | 88.1% |
| CharXiv 推理(使用 Python) 科学图表类问题 |
88.7% | 80.3% |
| HMMT(2025 年 2 月) 数学竞赛 |
99.4% | 96.3% |
| FrontierMath(Tier 1–3) 高等数学 |
40.3% | 31.0% |
| ARC-AGI-1 (Verified) 抽象推理 |
86.2% | 72.8% |
| ARC-AGI-2 (Verified) 抽象推理 |
52.9% | 17.6% |
Notion(在新窗口中打开)、Box(在新窗口中打开)、Shopify(在新窗口中打开)、Harvey(在新窗口中打开) 和 Zoom(在新窗口中打开) 观察到,GPT‑5.2 展现出强大的长时推理和工具调用性能。Databricks(在新窗口中打开) 、Hex(在新窗口中打开) 和 Triple Whale(在新窗口中打开) 发现,GPT‑5.2 在智能体数据科学和文档分析任务中表现出色。Cognition(在新窗口中打开)、Warp(在新窗口中打开)、Charlie Labs(在新窗口中打开)、JetBrains(在新窗口中打开) 和 Augment Code(在新窗口中打开) 表示,GPT‑5.2 在智能体编码方面达到了行业领先水平,并在交互式编程、代码审查和缺陷定位等领域带来了可量化的提升。
在 ChatGPT 中,GPT‑5.2 Instant、Thinking 和 Pro 将从今天开始陆续上线,首先面向付费套餐用户开放。在 API 中,它们现已向所有开发者开放。
总体而言,GPT‑5.2 在通用智能、长上下文理解、智能体工具调用以及视觉方面都有显著提升,使其在端到端执行复杂的真实任务时,比以往任何模型都更为出色。
模型性能
具备经济效益的任务
GPT‑5.2 Thinking 是我们迄今为止最适合真实场景与专业工作的模型。GDPval 评测是一项覆盖 44 个职业、用于衡量明确知识型工作任务的评估。在该评测中,GPT‑5.2 Thinking 树立了新的技术标杆,是我们首个达到或超过人类专家水平的模型。具体而言,根据人类专家评审的结果,GPT‑5.2 Thinking 在 GDPval 的知识型任务中,有 70.9% 的对比项目表现优于顶尖行业专业人士或与其持平。这些任务包括制作演示文稿、电子表格以及其他专业产出。GPT‑5.2 Thinking 的输出速度在 GDPval 任务中比专家快 11 倍以上,成本却不到其 1%。这表明,在有人类监督的情况下,GPT‑5.2 能有效辅助专业工作。速度和成本估算基于历史指标;ChatGPT 的速度可能会有所不同。
在 GDPval 测试中,模型尝试完成定义明确的知识型工作,内容涵盖美国 GDP 贡献度最高的 9 个行业中的 44 种职业。任务要求生成真实的工作成果,例如销售演示文稿、会计表格、急诊排班表、制造业图表或短视频。在 ChatGPT 中,GPT‑5.2 Thinking 拥有 GPT‑5 Thinking 所不具备的新工具。
在评审某个特别出色的输出结果时,一位 GDPval 评委这样评价:“这是一次令人兴奋的质量飞跃……它看起来就像是由一家拥有专业团队的公司完成的,布局设计颇为惊艳,对两个交付物的建议也非常到位,只是其中一个仍有一些小错误需要修正。”
此外,在我们针对初级投资银行分析师的内部电子表格建模任务的基准测试中(例如,为财富 500 强公司制作格式规范、引用完整的三表模型,或为私有化交易构建杠杆收购模型),GPT‑5.2 Thinking 的平均任务得分较 GPT‑5.1 提升了 9.3%,由 59.1% 增至 68.4%。
并排对比显示,GPT‑5.2 Thinking 生成的电子表格和幻灯片在复杂度与格式呈现上都有明显提升:

提示:创建一份人力规划模型,涵盖人员编制、招聘计划、流失率以及预算影响,并包括工程、市场、法务和销售部门。
要在 ChatGPT 中使用新的电子表格和演示文稿功能,你必须订阅付费套餐,并选择 GPT‑5.2 Thinking 或 Pro。复杂的生成任务可能需要数分钟才能完成。
编码
GPT‑5.2 Thinking 在 SWE-bench Pro 测试取得了 55.6% 的新成绩。SWE-bench Pro 是一项严格评估真实软件工程能力的基准测试。与只测试 Python 的 SWE-bench Verified 不同,SWE-bench Pro 涵盖四种语言,旨在更具抗污染性、更具挑战性、更具多样性,也更贴近真实工业场景。
SWE-Bench Pro(在新窗口中打开) 为模型提供一个代码仓库,要求其生成补丁以完成真实的软件工程任务。
在 SWEvbench Verified 测试中(未绘制在图表中),GPT‑5.2 Thinking 取得了我们全新的最高成绩:80%。
在日常专业应用中,这意味着该模型能够更可靠地调试生产环境代码、实现功能需求、重构大型代码库,并以更少的人工干预完成端到端的修复交付。
GPT‑5.2 Thinking 在前端软件工程方面也优于 GPT‑5.1 Thinking。早期测试者发现,它在前端开发以及复杂或非传统的 UI 工作上表现更强(尤其是涉及 3D 元素的场景),这让它成为工程师在全栈工作中的强大日常伙伴。下面示例展示了它仅凭一个提示就能生成的内容:
提示:创建一个单页应用(单个 HTML 文件),满足以下要求:
- 名称:海浪模拟
- 目标:展示逼真的海浪动画效果。
- 功能:可调整风速、浪高和光照。
- 界面:应呈现宁静且逼真的效果。
早期测试者分享了他们对 GPT‑5.2 编码能力的反馈:
“GPT-5.2 代表了自 GPT-5 以来在智能体编码上的最大飞跃,并且在同价位中是业界领先的编码模型。版本号的提升甚至低估了它在智能水平上的跨越。我们很高兴将它设为 Windsurf 以及多个核心 Devin 工作负载的默认模型。”
事实性
GPT‑5.2 Thinking 的幻觉率低于 GPT‑5.1 Thinking。在一组来自 ChatGPT、已去标识化的查询中,含有错误的回答出现频率相对减少了 38%。对专业人士来说,这意味着在研究、写作、分析和决策支持等任务中,模型犯错更少,从而在日常知识型工作中更加可靠。
推理强度设置为可用的最高级别,并启用了搜索工具。错误由其他模型检测,但这些模型本身也可能出错。由于多数回复包含多个论断,论断层面的错误率显著低于回复层面的错误率。
像所有模型一样,GPT‑5.2 Thinking 并不完美。对于任何关键任务,请务必再次核查它的回答。
长上下文
GPT‑5.2 Thinking 在长上下文推理方面树立了新的技术标杆。OpenAI MRCRv2 是一项用于测试模型整合长文档中分散信息能力的评估,GPT‑5.2 Thinking 在该评估中表现领先。在真实任务中,例如深度文档分析(需要跨数十万 Token 关联信息),GPT‑5.2 Thinking 的准确性显著高于 GPT‑5.1 Thinking。值得一提的是,这是我们首次看到某个模型在 4-needle MRCR 评测变体(最长可达 256k Token)中实现接近 100% 的准确率。
在实际应用中,这让专业人士能够使用 GPT‑5.2 处理长文档,例如报告、合同、研究论文、会议记录和多文件项目,同时在数十万 Token 的范围内保持连贯性和准确性。因此,GPT‑5.2 尤其适合深度分析、信息综合以及复杂的多来源工作流程。
在 OpenAI-MRCR(在新窗口中打开) v2(多轮共指解析)测试中,评测会将多个完全相同的“针”(needle) 式用户请求插入到由大量相似请求与回复组成的“草堆”(haystack) 中,并要求模型复现第 n 个针对应的回复。第二版评测修正了约 5% 原本具有错误参考答案的任务。平均匹配率 (Mean match ratio) 衡量模型响应与正确答案之间的平均字符串匹配度。256k 最大输入 Token 的点表示在 128k–256k 输入 Token 区间的平均值,依此类推。这里的 256k 指 256 × 1,024 = 262,144 个 Token。推理强度设置为可用的最高级别。
对于那些需要在最大上下文窗口之外继续推理的任务,GPT‑5.2 Thinking 可与我们全新的 Responses /compact 端点配合使用,从而扩展模型的有效上下文窗口。这使得 GPT‑5.2 Thinking 能够处理更多依赖工具的长时工作流程,而这些流程在过去会受到上下文长度的限制。详情请参阅我们的 API 文档(在新窗口中打开)。
视觉
GPT‑5.2 Thinking 是我们迄今最强大的视觉模型,在图表推理和软件界面理解方面将错误率大幅降低,约减少了一半。
在日常专业场景中,这意味着模型能够更准确地理解控制面板、产品截图、技术图示和可视化报告,从而支持金融、运营、工程、设计和客户支持等以视觉信息为核心的工作流程。
在 CharXiv Reasoning(在新窗口中打开) 测试中,模型需要回答关于科研论文中可视化图表的问题。测试中启用了 Python 工具,并将推理强度设置为最高。
在 ScreenSpot-Pro(在新窗口中打开) 测试中,模型需要对来自多种专业场景的高分辨率 GUI 截图进行推理。测试中启用了 Python 工具,并将推理强度设置为最高。若不启用 Python 工具,得分会显著下降。因此我们建议在此类视觉任务中启用 Python 工具。
与以往模型相比,GPT‑5.2 Thinking 对图像中各元素的空间位置有更强的理解能力,这在需要依赖相对布局来解决问题的任务中尤为重要。在下面的示例中,我们让模型识别图像中的组件(这里是一块主板),并返回带有大致边界框的标签。即使面对低质量图像,GPT‑5.2 仍能识别主要区域,并将边界框大致放在各组件的真实位置上;而 GPT‑5.1 只能标出少数部分,对空间关系的理解也明显较弱。
GPT‑5.1

GPT‑5.2

工具调用
GPT‑5.2 Thinking 在 Tau2 bench Telecom 测试中取得了 98.7% 的全新优异成绩,展示了它在长程、多轮任务中可靠使用工具的能力。
在对延迟敏感的场景中,GPT‑5.2 Thinking 在 reasoning.effort=’none’ 模式下也有显著提升,性能大幅领先 GPT‑5.1 和 GPT‑4.1。
在 τ2-bench(在新窗口中打开) 测试中,模型会在与模拟用户的多轮对话中使用工具完成客服任务。在电信 (Telecom) 领域中,我们在系统提示中加入了一段简短且普适有效的指令,以提升模型表现。由于航空 (Airline) 子集的参考答案与评分体系的可靠性较低,我们将其排除在评测之外。
对于专业人士而言,这意味着端到端的工作流程将更加稳健,例如处理客户支持案例、从多个系统提取数据、执行分析以及生成最终结果,各步骤之间出现中断的情况也会更少。
例如,当用户提出一个需要多步骤解决的复杂客服问题时,模型能够更有效地在多个代理之间协调完整的工作流程。在下面的案例中,一位旅客报告航班延误、错过转机、在纽约过夜以及需要医疗座位安排。GPT‑5.2 能够处理整个任务链,包括改签、座位安排的特殊协助和补偿,最终结果比 GPT‑5.1 更完整。




