OpenAI十周年：获迪士尼10亿美元投资，发布“能抢白领工作”的GPT-5.2

2025-12-12 12:01 作者:宜月

12月12日消息，OpenAI迎来10周年之际，一口气官宣多项大事。

12月12日消息，OpenAI迎来10周年之际，一口气官宣多项大事：

1、发布GPT-5.2系列3款大模型。GPT‑5.2系列在通用智能、长上下文理解、智能体工具调用以及视觉方面都有显著提升，性能全面碾压谷歌Gemini 3 Pro和Anthropic Claude Opus 4.5。

2、获得迪士尼10亿美元投资，双方达成协议，迪士尼成为 Sora的第一个主要内容授权合作伙伴。

作为这项为期三年的新授权协议的一部分，Sora将能够生成由用户提示的短视频，供粉丝观看和分享，这些视频将基于迪士尼、漫威、皮克斯和星球大战品牌中超过 200 个动画、面具和生物角色，包括服装、道具、车辆和标志性环境。ChatGPT Images 也将能够将用户的几句话在几秒钟内转化为完整生成的图像。该协议不包括任何人物肖像或声音。

Sora和ChatGPT Images预计将在2026年初开始制作迪士尼多品牌授权角色的粉丝视频。

除了许可协议，迪士尼还将成为OpenAI的主要客户，使用其API构建新产品、工具和体验，包括迪士尼+，并为员工部署ChatGPT。

OpenAI创始人Sam Altman在10周年的公开信中表示：“我从未对我们的研究和产品路线图，以及通向使命的总体视野感到如此乐观。再过十年，我几乎确信我们将建成超级智能。2035年的人们将能够做到一些我们现在难以轻易想象的事情。”

GPT-5.2 三款模型齐发

OpenAI 推出最新大模型系列 GPT-5.2，将其定位为迄今为止最适合日常专业使用的模型，同时被视为在愈发激烈的代理型 AI竞争中的关键一步。

GPT-5.2 系列一共3款模型，全部上线：

• GPT‑5.2 Instant（即时版）是一款高效而强大的日常工作与学习“主力模型”，在信息查询、操作指南、步骤讲解、技术写作以及翻译方面都有显著提升，并延续了 GPT‑5.1 Instant 更温暖、更自然的对话风格。早期测试者特别指出，其解释更清晰，能够在一开始就呈现出关键信息。

• GPT‑5.2 Thinking（思考版）专为更深入的工作而打造，帮助用户以更高的完成度处理复杂任务，擅长编码、长文档总结、回答上传文件相关问题、逐步推导数学与逻辑问题，以及通过更清晰的结构和更有用的细节支持规划与决策。

• GPT‑5.2 Pro（专业版）是应对高难度问题时最智能、最可靠的选择，在需要高质量答案的场景中尤为适合。早期测试显示，它的重大错误更少，在编程等复杂领域的表现也更为出色。

GPT-5.2 将从即日起陆续在 ChatGPT 中上线，率先向 ChatGPT Plus、Pro、Go、Business 和 Enterprise 等付费用户开放。

在API价格方面，GPT-5.2的调用价格较上一代上调，输入端1.75美元/百万tokens（约合人民币12.35元/百万tokens）、输出端14美元/百万tokens（约合人民币98.81元/百万tokens）。GPT-5.2 Pro的定价为21美元与168美元/百万tokens（约合人民币148元与1185元/百万tokens）。

GPT-5.2能力碾压Gemini 3 Pro、超“专业打工人”

看一下GPT-5.2 系列的具体性能。

在OpenAI公布的SWE-Bench Pro、GPQA Diamond等8项基准测试中，GPT-5.2 Thinking的分数均超过谷歌Gemini 3 Pro和Anthropic Claude Opus 4.5。

OpenAI 表示，GPT‑5.2 在通用智能、长上下文理解、智能体工具调用以及视觉方面都有显著提升，使其在端到端执行复杂的真实任务时，比以往任何模型都更为出色。

相比 GPT-5.1，GPT-5.2 系列在制作电子表格、构建演示文稿、编写代码、理解长文本、处理图像、调用工具以及执行复杂多步骤任务等方面都有明显提升。该系列模型整体精度更高，幻觉更少，尤其是 Thinking 模型在专业场景下更适合用作高可靠性的智能代理内核。

从OpenAI 公开的数据来看，GPT‑5.2 在众多基准测试中都刷新了行业水平，包括 GDPval。

在GDPval 测试中，模型需要完成定义明确的知识型工作，内容涵盖美国 GDP 贡献度最高的9个行业中的44种职业。任务要求生成真实的工作成果，例如销售演示文稿、会计表格、急诊排班表、制造业图表或短视频。

在该评测中，GPT‑5.2 Thinking 是首个达到或超过人类专家水平的模型。

根据人类专家评审的结果，GPT‑5.2 Thinking 在 GDPval 的知识型任务中，那些人类专家耗费4-8小时完成的任务，有 70.9% 的对比项目表现优于顶尖行业专业人士或与其持平。这些任务包括制作演示文稿、电子表格以及其他专业产出。

同时，GPT‑5.2 Thinking 的输出速度比专家快 11 倍以上，成本却不到人类专家的1%。

这表明，当与人类监督相结合时，GPT‑5.2可以有效辅助完成日常由“白领”们来做的“专业工作”。

OpenAI举例，在针对初级投资银行分析师的内部电子表格建模任务的基准测试中（例如，为财富 500 强公司制作格式规范、引用完整的三表模型，或为私有化交易构建杠杆收购模型），GPT‑5.2 Thinking 的平均任务得分较 GPT‑5.1 提升了9.3%，由 59.1% 增至 68.4%。GPT‑5.2 Thinking 生成的电子表格和幻灯片在复杂度与格式呈现上都有明显提升。

编码能力：

GPT-5.2 代表了自 GPT-5 以来在智能体编码上的最大飞跃，并且在同价位中是业界领先的编码模型。

GPT‑5.2 Thinking 在评估真实软件工程能力的基准测试 SWE-bench Pro 取得了 55.6% 的成绩；在 SWEvbench Verified 测试中GPT‑5.2 Thinking 取得了全新的最高成绩80%。GPT‑5.2 Thinking 在前端软件工程方面也优于 GPT‑5.1 Thinking。

长文本处理能力：

GPT‑5.2 Thinking 在长上下文推理方面树立了新的技术标杆。OpenAI MRCRv2 是一项用于测试模型整合长文档中分散信息能力的评估，GPT‑5.2 Thinking 在该评估中表现领先。在深度文档分析，如需要跨数十万 Token 关联信息，GPT‑5.2 Thinking 的准确性显著高于 GPT‑5.1 Thinking。在 4-needle MRCR 评测变体（最长可达 256k Token）中实现接近 100% 的准确率。

在实际应用中，这让专业人士能够使用 GPT‑5.2 处理长文档，例如报告、合同、研究论文、会议记录和多文件项目，同时在数十万 Token 的范围内保持连贯性和准确性。因此，GPT‑5.2 尤其适合深度分析、信息综合以及复杂的多来源工作流程。

视觉能力：

GPT‑5.2 Thinking是OpenAI目前最强的视觉模型，在图表推理和软件界面理解方面将错误率大幅降低，约减少了一半。

在日常专业场景中，GPT‑5.2 Thinking能够更准确地理解控制面板、产品截图、技术图示和可视化报告，从而支持金融、运营、工程、设计和客户支持等以视觉信息为核心的工作流程。

工具调用能力：

GPT‑5.2 Thinking 在 Tau2 bench Telecom 测试中取得了 98.7% 的全新优异成绩，展示了它在长程、多轮任务中可靠使用工具的能力。

在对延迟敏感的场景中，GPT‑5.2 Thinking 在 reasoning.effort=‘none’ 模式下也有显著提升，性能大幅领先 GPT‑5.1 和 GPT‑4.1。

这意味着GPT‑5.2 Thinking在处理端到端的工作流程更加稳健，例如处理客户支持案例、从多个系统提取数据、执行分析以及生成最终结果，各步骤之间出现中断的情况也会更少。

科学与数学能力：

GPT‑5.2 Pro 和 GPT‑5.2 Thinking 是OpenAI目前在科学和数学方面实力最强的模型。

在研究生级防 Google 问答基准测试 GPQA Diamond*中，GPT‑5.2 Pro 取得了93.2%的成绩，GPT‑5.2 Thinking 紧随其后，达到92.4%。

在专家级数学评测 FrontierMath (Tier 1–3)中，GPT‑5.2 Thinking 树立了新的技术标杆，解决了40.3%的问题。

随着GPT-5.2大模型的发布，微软董事长兼CEO Satya Nadella已在X平台上发文宣布，GPT-5.2将全面进入Microsoft 365 Copilot、GitHub Copilot与Foundry等产品体系，并作为新的“默认推理模型”服务更多工作流场景。（宜月）

THE END

免责声明：本文版权归原作者所有；旨在传递信息，不代表鲸媒智集的观点和立场。

相关阅读

AI赋能社区：10大工作流提升会员体验与用户留存

在数字时代，在线社区已成为品牌与用户建立深度连接、提供持续价值的重要平台。然而，有效管理一个蓬勃发展的社区并非易事，需要耗费大量的时间和精力。幸运的是，人工智能（AI）的崛起为我们带来了全新的解决方案。本文将深入探讨如何运…

34分钟前
拥抱AI，HPE Networking以“自动驾驶的网络”引领智能网络新时代

HPE Networking中国区总经理竺宏两大平台协同，打造领先的“自动驾驶的网络”随着智能体 AI的快速兴起，网络正从传统自动化运维迈向智能时代。当前，HPE Networking正加速迈入第五阶段，通过整合HPE Aruba Networking Central与HPE Junip…

2025年12月18日 11:07
罗福莉加入小米后首秀，解释 MiMo-V2-Flash 模型如何做到推理速度飞快

2025 小米人车家全生态合作伙伴大会于今日举行，Xiaomi MiMo 大模型负责人罗福莉迎来入职后首秀。#小米人车家全生态合作伙伴大会#

2025年12月18日 9:37
豆包AI回答不准确怎么办_提升豆包AI回答质量的方法

当您感觉豆包AI的回答不准确时，首要原因是您提出的问题可能过于宽泛或缺乏背景信息。为了获得高质量的回答，您需要先为AI提供充足的上下文。

2025年12月18日 9:15
商量怎样写创意类提示词_商量提示词激发创意的结构与案例【实例】

若AI生成内容平庸，主因是提示词缺乏结构性引导和激发机制；文内提出五种创意提示法：混合不相关元素、限定结构嵌套、抽象—具体循环、角色权限错置、感官权重偏移。

2025年12月17日 15:49
特朗普政府启动“美国科技力量”计划，招募千名工程师深耕 AI 基建

特朗普政府宣布启动“美国科技力量”计划，招募1000名工程师及专业人才，在联邦政府从事AI及关键技术项目工作。参与者年薪15-20万美元，两年后可申请亚马逊、苹果等合作企业全职职位。#美国科技力量# #人工智能#

2025年12月17日 14:41
美国男子“听信 ChatGPT 谗言”弑母后自杀事件后续：OpenAI 拒交关键聊天记录

科技媒体 Ars Technica 今天（12 月 16 日）发布博文，报道称在一起凶杀案中，ChatGPT 涉嫌诱导凶手，但 OpenAI 却拒绝提供案发前几日的完整聊天记录。

2025年12月17日 14:33
用 AI 从零设计抗体，OpenAI 支持的 Chai Discovery 获 1.3 亿美元融资

AI制药公司Chai Discovery宣布完成1.3亿美元B轮融资，估值达13亿美元。该公司专注于利用AI加速药物研发，其最新模型Chai 2在抗体设计领域表现突出。 #AI制药# #生物科技#

2025年12月17日 14:27
韦氏词典官宣：slop（AI 恶劣内容）当选 2025 年度词汇

科技媒体 Ars Technica 今天（12 月 16 日）发布博文，报道称韦氏词典（Merriam-Webster）宣布，将“slop”选定为 2025 年度词汇，指代由人工智能批量生成的低质量数字内容。

2025年12月17日 14:25
AI 重置漫威《复仇者联盟 5：毁灭日》贴片预告，实现 4K 高清画质

漫威《#复仇者联盟5#》贴片预告已在互联网平台偷跑，由克里斯・埃文斯饰演的美国队长确认回归。值得一提的是，由于偷拍版本画质较为模糊，网友借助 AI 技术对其进行重置，实现了 4K 高清画质。

2025年12月17日 14:11

栏目精选

公司

操作系统开发范式变革：上海交大新研究让AI通过“规约”自动生成可靠代码

上海交通大学IPADS实验室在操作系统开发领域取得突破性进展。研究团队提出名为“SysSpec”的全新范式，允许开发者通过编写精确的“形式化规约”（一种类似数学说明书的严谨定义），由大模型自动生成操作系统核心组件（如文件系统）的正确…

前天 9:19 范式上海交大自动生成变革代码
公司

AI成电商购物退款诈骗帮凶伪造瑕疵30秒“搞定” |聚焦

①利用AI伪造商品瑕疵图，此类“假”证据被用于“薅羊毛”，甚至催生付费灰产，商家正陷入“举证难、立案更难”的维权困境。

2025年12月16日 16:57