OpenAI 正式发布 GPT-5.2！实测效果惊人，附最新免费使用教程！切勿错过

GPT-5.2是 OpenAI 最新的旗舰AI模型，于2025年12月11日发布。继 GPT-5.1之后，它是GPT系列中的三个大型语言模型家族。它提供两种模式：GPT-5.2 即时和 GPT-5.2 思考，后者为推理模型。GPT-5.2 Pro模型于同日发布，其推理时间和计算量均高于GPT-5.2思考模式。

20260214 1771027321

目前，一般 ChatGPT Enterprise 用户表示⁠，AI 每天能为他们节省 40–60 分钟；而重度用户甚至表示，每周能节省超过 10 小时。我们打造了 GPT‑5.2，旨在帮助人们创造更大的经济价值。该模型在制作电子表格、设计演示文稿、编写代码、识别图像、理解长文本上下文、使用工具以及处理复杂的多步骤项目方面表现更佳。

GPT‑5.2 在众多基准测试中都刷新了行业水平，包括 GDPval。在该评测中，它在涵盖 44 个职业的明确知识型工作任务上超越了行业专家。

	GPT-5.2 Thinking	GPT-5.1 Thinking
GDPval（胜出或持平） ^{知识型工作任务}	70.9%	38.8% (GPT-5)
SWE-Bench Pro（公开版） ^软件工程	55.6%	50.8%
SWE-bench Verified ^软件工程	80.0%	76.3%
GPQA Diamond（无工具） ^科学问题	92.4%	88.1%
CharXiv 推理（使用 Python） ^{科学图表类问题}	88.7%	80.3%
HMMT（2025 年 2 月） ^数学竞赛	99.4%	96.3%
FrontierMath(Tier 1–3) ^高等数学	40.3%	31.0%
ARC-AGI-1 (Verified) ^抽象推理	86.2%	72.8%
ARC-AGI-2 (Verified) ^抽象推理	52.9%	17.6%

在 ChatGPT 中，GPT‑5.2 Instant、Thinking 和 Pro 将从今天开始陆续上线，首先面向付费套餐用户开放。在 API 中，它们现已向所有开发者开放。

总体而言，GPT‑5.2 在通用智能、长上下文理解、智能体工具调用以及视觉方面都有显著提升，使其在端到端执行复杂的真实任务时，比以往任何模型都更为出色。

模型性能

具备经济效益的任务

GPT‑5.2 Thinking 是我们迄今为止最适合真实场景与专业工作的模型。GDPval⁠ 评测是一项覆盖 44 个职业、用于衡量明确知识型工作任务的评估。在该评测中，GPT‑5.2 Thinking 树立了新的技术标杆，是我们首个达到或超过人类专家水平的模型。具体而言，根据人类专家评审的结果，GPT‑5.2 Thinking 在 GDPval 的知识型任务中，有 70.9% 的对比项目表现优于顶尖行业专业人士或与其持平。这些任务包括制作演示文稿、电子表格以及其他专业产出。GPT‑5.2 Thinking 的输出速度在 GDPval 任务中比专家快 11 倍以上，成本却不到其 1%。这表明，在有人类监督的情况下，GPT‑5.2 能有效辅助专业工作。速度和成本估算基于历史指标；ChatGPT 的速度可能会有所不同。

GDPval Knowledge work tasks

GPT-5.2 ProGPT-5.2 ThinkingGPT-5 Thinking0%20%40%60%80%100%与行业专业人员对比的胜率74.1%70.9%38.8%专家水平WinsTies

在 GDPval 测试中，模型尝试完成定义明确的知识型工作，内容涵盖美国 GDP 贡献度最高的 9 个行业中的 44 种职业。任务要求生成真实的工作成果，例如销售演示文稿、会计表格、急诊排班表、制造业图表或短视频。在 ChatGPT 中，GPT‑5.2 Thinking 拥有 GPT‑5 Thinking 所不具备的新工具。

在评审某个特别出色的输出结果时，一位 GDPval 评委这样评价：“这是一次令人兴奋的质量飞跃……它看起来就像是由一家拥有专业团队的公司完成的，布局设计颇为惊艳，对两个交付物的建议也非常到位，只是其中一个仍有一些小错误需要修正。”

此外，在我们针对初级投资银行分析师的内部电子表格建模任务的基准测试中（例如，为财富 500 强公司制作格式规范、引用完整的三表模型，或为私有化交易构建杠杆收购模型），GPT‑5.2 Thinking 的平均任务得分较 GPT‑5.1 提升了 9.3%，由 59.1% 增至 68.4%。

并排对比显示，GPT‑5.2 Thinking 生成的电子表格和幻灯片在复杂度与格式呈现上都有明显提升：

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

提示：创建一份人力规划模型，涵盖人员编制、招聘计划、流失率以及预算影响，并包括工程、市场、法务和销售部门。

要在 ChatGPT 中使用新的电子表格和演示文稿功能，你必须订阅付费套餐，并选择 GPT‑5.2 Thinking 或 Pro。复杂的生成任务可能需要数分钟才能完成。

编码

GPT‑5.2 Thinking 在 SWE-bench Pro 测试取得了 55.6% 的新成绩。SWE-bench Pro 是一项严格评估真实软件工程能力的基准测试。与只测试 Python 的 SWE-bench Verified 不同，SWE-bench Pro 涵盖四种语言，旨在更具抗污染性、更具挑战性、更具多样性，也更贴近真实工业场景。

SWE-Bench Pro（公开版）软件工程

020,00040,00060,00080,000100,000输出 Token 数30%40%50%60%准确性GPT-5.1 Thinking (high)GPT-5.1-Codex-Max (xhigh)GPT-5.2 Thinking (xhigh)GPT-5.2 ThinkingGPT-5.1 ThinkingGPT-5.1-Codex-Max

SWE-Bench Pro⁠（在新窗口中打开）⁠⁠⁠ 为模型提供一个代码仓库，要求其生成补丁以完成真实的软件工程任务。

在 SWEvbench Verified 测试中（未绘制在图表中），GPT‑5.2 Thinking 取得了我们全新的最高成绩：80%。

在日常专业应用中，这意味着该模型能够更可靠地调试生产环境代码、实现功能需求、重构大型代码库，并以更少的人工干预完成端到端的修复交付。

GPT‑5.2 Thinking 在前端软件工程方面也优于 GPT‑5.1 Thinking。早期测试者发现，它在前端开发以及复杂或非传统的 UI 工作上表现更强（尤其是涉及 3D 元素的场景），这让它成为工程师在全栈工作中的强大日常伙伴。下面示例展示了它仅凭一个提示就能生成的内容：

提示：创建一个单页应用（单个 HTML 文件），满足以下要求： - 名称：海浪模拟 - 目标：展示逼真的海浪动画效果。 - 功能：可调整风速、浪高和光照。 - 界面：应呈现宁静且逼真的效果。

早期测试者分享了他们对 GPT‑5.2 编码能力的反馈：

“GPT-5.2 代表了自 GPT-5 以来在智能体编码上的最大飞跃，并且在同价位中是业界领先的编码模型。版本号的提升甚至低估了它在智能水平上的跨越。我们很高兴将它设为 Windsurf 以及多个核心 Devin 工作负载的默认模型。”

Jeff Wang，Windsurf 首席执行官

事实性

GPT‑5.2 Thinking 的幻觉率低于 GPT‑5.1 Thinking。在一组来自 ChatGPT、已去标识化的查询中，含有错误的回答出现频率_相对减少了 38%。对专业人士来说，这意味着在研究、写作、分析和决策支持等任务中，模型犯错更少，从而在日常知识型工作中更加可靠。

去标识化 ChatGPT 查询的回复层面错误率

GPT-5.2 ThinkingGPT-5.1 Thinking0%20%40%60%80%100%至少包含一个错误的回复6.2%8.8%

推理强度设置为可用的最高级别，并启用了搜索工具。错误由其他模型检测，但这些模型本身也可能出错。由于多数回复包含多个论断，论断层面的错误率显著低于回复层面的错误率。

像所有模型一样，GPT‑5.2 Thinking 并不完美。对于任何关键任务，请务必再次核查它的回答。

长上下文

GPT‑5.2 Thinking 在长上下文推理方面树立了新的技术标杆。OpenAI MRCRv2 是一项用于测试模型整合长文档中分散信息能力的评估，GPT‑5.2 Thinking 在该评估中表现领先。在真实任务中，例如深度文档分析（需要跨数十万 Token 关联信息），GPT‑5.2 Thinking 的准确性显著高于 GPT‑5.1 Thinking。值得一提的是，这是我们首次看到某个模型在 4-needle MRCR 评测变体（最长可达 256k Token）中实现接近 100% 的准确率。

在实际应用中，这让专业人士能够使用 GPT‑5.2 处理长文档，例如报告、合同、研究论文、会议记录和多文件项目，同时在数十万 Token 的范围内保持连贯性和准确性。因此，GPT‑5.2 尤其适合深度分析、信息综合以及复杂的多来源工作流程。

OpenAI MRCRv2 (4-needle) 长上下文

8k16k32k64k128k256k最大输入 Token 数0%50%100%平均匹配率GPT-5.2 ThinkingGPT-5.1 Thinking

OpenAI MRCRv2 (8-needle) 长上下文

8k16k32k64k128k256k最大输入 Token 数0%50%100%平均匹配率GPT-5.2 ThinkingGPT-5.1 Thinking

在 OpenAI-MRCR⁠⁠（在新窗口中打开） v2（多轮共指解析）测试中，评测会将多个完全相同的“针”(needle) 式用户请求插入到由大量相似请求与回复组成的“草堆”(haystack) 中，并要求模型复现第 n 个针对应的回复。第二版评测修正了约 5% 原本具有错误参考答案的任务。平均匹配率 (Mean match ratio) 衡量模型响应与正确答案之间的平均字符串匹配度。256k 最大输入 Token 的点表示在 128k–256k 输入 Token 区间的平均值，依此类推。这里的 256k 指 256 × 1,024 = 262,144 个 Token。推理强度设置为可用的最高级别。

对于那些需要在最大上下文窗口之外继续推理的任务，GPT‑5.2 Thinking 可与我们全新的 Responses /compact 端点配合使用，从而扩展模型的有效上下文窗口。这使得 GPT‑5.2 Thinking 能够处理更多依赖工具的长时工作流程，而这些流程在过去会受到上下文长度的限制。详情请参阅我们的 API 文档⁠（在新窗口中打开）。

视觉

GPT‑5.2 Thinking 是我们迄今最强大的视觉模型，在图表推理和软件界面理解方面将错误率大幅降低，约减少了一半。

在日常专业场景中，这意味着模型能够更准确地理解控制面板、产品截图、技术图示和可视化报告，从而支持金融、运营、工程、设计和客户支持等以视觉信息为核心的工作流程。

CharXiv Reasoning 科学图表类问题

GPT-5.2 ThinkingGPT-5.1 Thinking0%20%40%60%80%100%准确性88.7%80.3%

在 CharXiv Reasoning⁠（在新窗口中打开） 测试中，模型需要回答关于科研论文中可视化图表的问题。测试中启用了 Python 工具，并将推理强度设置为最高。

ScreenSpot-Pro GUI 截图理解

GPT-5.2 ThinkingGPT-5.1 Thinking0%20%40%60%80%100%准确性86.3%64.2%

在 ScreenSpot-Pro⁠（在新窗口中打开）测试中，模型需要对来自多种专业场景的高分辨率 GUI 截图进行推理。测试中启用了 Python 工具，并将推理强度设置为最高。若不启用 Python 工具，得分会显著下降。因此我们建议在此类视觉任务中启用 Python 工具。

与以往模型相比，GPT‑5.2 Thinking 对图像中各元素的空间位置有更强的理解能力，这在需要依赖相对布局来解决问题的任务中尤为重要。在下面的示例中，我们让模型识别图像中的组件（这里是一块主板），并返回带有大致边界框的标签。即使面对低质量图像，GPT‑5.2 仍能识别主要区域，并将边界框大致放在各组件的真实位置上；而 GPT‑5.1 只能标出少数部分，对空间关系的理解也明显较弱。