开云体育(kaiyun)官网

你的位置:开云体育(kaiyun)官网 > 开云app下载 > 开云体育app OpenAI突发GPT-5.4!初次原生操控电脑,AI果然开动替你干活了

开云体育app OpenAI突发GPT-5.4!初次原生操控电脑,AI果然开动替你干活了

发布日期:2026-03-09 11:03    点击次数:119

开云体育app OpenAI突发GPT-5.4!初次原生操控电脑,AI果然开动替你干活了

出品 | 网易智能

作家 | 小小

剪辑 | 王凤枝

OpenAI又毫无征兆地发布了新模子。

距离GPT-5.3 Instant上线只是当年两天,GPT-5.4便被认真推出。它在API层面初次得回了原生电脑操作智力,让AI能够像东说念主类相似自主边界键鼠,跨越种种独揽软件践诺具体任务。

不仅如斯,ChatGPT也认真与Excel和Google Sheets等坐褥力器具兑现了深度绑定。你不错在电子表格中平直调用它,将数据更新和财务分析全盘交由它来处理。

关于每天周旋于表格与文档之间的职场东说念主来说,这个模子的践诺道理极其明确:AI不再只是是个聊天器具,它照旧认真下场替你干活了。

固然有早期测试者吐槽它的前端交互体验依然略逊于中枢竞品,但在这种极具总揽力的自动化践诺力眼前,这点UI层面的短板照旧显得卑不足说念。

01两个版块,消散不同需求

GPT-5.4此次分两个版块上线。

GPT-5.4 Thinking面向付费订阅用户,ChatGPT Plus(20好意思元/月)、Team和Pro用户当今就能用。它会在回答问题前先展示想考想法,用户不错半途打断、迂曲想法,毋庸重新再来。关于复杂问题,它能想考更万古刻,同期保抓高下文不毫不跑偏。

GPT-5.4 Pro则留给需求更硬的用户,包括ChatGPT Pro(200好意思元/月)和Enterprise企业版。OpenAI的说法是,这是为最复杂任务准备的,追求性能上限。免用度户也有契机体验它,但惟有系统合计必要时才会自动路由当年。

在API端,GPT-5.4复古100万token高下文窗口,是OpenAI咫尺给到的最大容量。整本代码库、整份长协议不错一次性扔进去。

但有个细节要防卫:输入一朝非凡27.2万token,超出的部分按两倍费率计费。

02原生电脑操控,AI开动像东说念主相似用电脑

此次最中枢的升级,是GPT-5.4在API和Codex里第一次内置了原生电脑操作智力。

以前AI只可生成文本、代码让你我方拿去用。当今它不错我方调用Playwright这类库写代码操控电脑,也不错平直看屏幕截图,发出鼠标和键盘指示。开导者还能建立自界说阐明战术,针对不同风险场景迂曲它的行径。

OpenAI暗意,这是他们首个具备这种智力的通用模子,关于开导智能体的开导者来说,这是咫尺可用的最好采取。

几个基准测试最能诠释问题:

在测试桌面导航智力的OSWorld-Verified上,GPT-5.4的得手率达到75.0%,不仅远超GPT-5.2的47.3%,还非凡了72.4%的东说念主类基准水平。这个测试掂量的是模子通过屏幕截图加键盘鼠标操作在桌面环境里导航的智力。

在浏览器操控测试WebArena-Verified上,同期用DOM和截图驱动交互时,它作念到了67.3%的得手率,GPT-5.2是65.4%。而在Online-Mind2Web上,只靠截图不雅察,它的得手率达到了92.8%,远高于ChatGPT Atlas智能体花式的70.9%。

计议机使用智力的普及,跟视觉感知智力的改良分不开。在测试模子视觉不绝和推理的MMMU-Pro上,GPT-5.4在不使用器具的情况下达到81.2%的得手率,高于GPT-5.2的79.5%。在文档解析测试OmniDocBench上,GPT-5.4的平均流毒是0.109,优于GPT-5.2的0.140,何况这是在没开推理尽力的情况下跑出来的,反应的是低本钱、低延伸气象下的性能。

高分别率图像的不绝也有升级。从GPT-5.4开动,OpenAI引入了一个原始图像输入细节级别,复古最高1024万总像素或6000像素最大维度的全保真感知。高细节级别当今也复古到256万总像素或2048像素最大维度。早期测试里,使用原始或高细节时,定位智力、图像不绝、点击准确性齐有较着普及。

在GDPval这个测试消散44个奇迹的学问职责任务中,GPT-5.4在83.0%的比较里达到或非凡行业专科东说念主士水平,其中69.2%是胜出,13.8%是打平。GPT-5.2是70.9%(49.8%胜,21.1%平)。GPT-5.4 Pro的胜率为82.0%,GPT-5.2 Pro是74.1%。测试里包含的行业消散了好意思国GDP孝顺前9大行业。

在SWE-Bench Pro编码测试里,GPT-5.4得分57.7%,GPT-5.3 Codex是56.8%,GPT-5.2是55.6%。更进犯的是延伸发扬:在达到相似或更高准确率的情况下,GPT-5.4的猜度延伸在500至800秒支配,而GPT-5.3 Codex是1800秒以上。延伸猜度考虑了器具调用时刻、采样token和输入token。

OpenAI拿用户之前符号过事实错误的去记号化教唆词跑了一遍。GPT-5.4的单项述说错误率比GPT-5.2低了33%,完整回报里出现随性错误的概率低了18%。OpenAI说这是他们迄今最具事实准确性的模子。

GitHub首席家具官马里奥·罗德里格斯(Mario Rodriguez)的评价是,GPT-5.4在逻辑推理和践诺复杂多方法器具依赖职责流方面发扬隆起,是企业第一天就该领受的模子。

房地产科技公司Mainstay的CEO多德·弗雷泽(Dod Fraser)分解,在消散约3万个房产税宗派的测试中,GPT-5.4初次尝试得手率95%,三次内得手率100%,而之前的计议机操控模子惟有73%到79%。GPT-5.4的完成速率快了未必3倍,token销耗少了约70%。

AI招聘与内行测验平台Mercor的连合独创东说念主兼CEO布伦丹·富迪(Brendan Foody)也给了评价,APEX-Agents最新测试娇傲,GPT-5.4平均得分初次突破50%,三个月飙升15.7%。而一年前,顶尖模子连Excel齐改不好,得分不及5%。AI智力正以超预期速率靠拢顶级专科机构水平。

OpenClaw独创东说念主彼得·斯坦伯格(Peter Steinberger)的见识更偏求实,GPT-5.4在延续编码上风的基础上,兑现了全地点的平衡普及,文档编写更专科,通用代明智力更强,举座体验也更友好。

Cursor的开导者解释副总裁李·罗宾逊(Lee Robinson)说,GPT-5.4在他们里面基准测试里处于开始地位。“咱们的工程师发现它比以前模子更当然、更飘舞。它会处理恍惚的问题而不自我怀疑,会主动并行化职责保抓进展。”

03器具搜索,把token尽量省下来

在器具调用方面,以前有个痛点:模子每次肯求齐得把系数器具界说塞进教唆词里。若是系统里器具多,一次肯求可能多花几千甚而几万token,本钱高、速率慢、还把高下文塞得满满的。

GPT-5.4在API里引入了器具搜索(Tool Search)机制,透顶蜕变了这套玩法。

当今模子只摄取一个轻量级的器具列表,配一个搜索功能。真需要使用时,它再去检索完整界说,按需拉取。这对那些可能包含几万token器具界说的MCP处事器来说,成果普及很较着。

OpenAI给出的数据娇傲,在Scale的MCP Atlas基准测试里跑了250个任务,启用系数36个MCP处事器。器具搜索花式跟把系数MCP功能平直涌现在高下文里的花式比较,准确率相似,但总token用量少了47%。

具体数字是这么的:毋庸器具搜索的情况下,平均总token销耗为123139,开云体育用了之后降到65320。

{jz:field.toptypename/}

器具调用的准确率和成果也有普及。在Toolathlon测试里,它测的是AI智能体用真实天下器具和API完成多方法任务的智力,比如读邮件、提真金不怕火附件、上传、评分、记到表格里等,GPT-5.4用更少的器具铩羽(Tool Yields)达到了更高的准确率。

所谓器具铩羽,是指当AI在恭候器具响适时会让出边界权,这叫一次铩羽。若是并行调用3个器具,再并行调用3个,铩羽次数是2。它比器具调用次数更能反应延伸,因为体现了并行化的公正。在Toolathlon上,GPT-5.4在约10次铩羽时准确率55%支配,GPT-5.2惟有46%支配。

关于延伸敏锐、不想开推理的场景,GPT-5.4也有普及。在τ²-bench电信测试里,模子要用器具完成客户处事任务,不开推理的情况下,GPT-5.4准确率64.3%,GPT-5.2是57.2%,GPT-5.1是45.2%,GPT-4.1是43.6%。

自动化软件处事公司Zapier的CEO韦德·福斯特(Wade Foster)说,GPT-5.4在他们跨几百个真实职责流的器具使用基准测试里发扬很好。“GPT-5.4 xhigh是多方法器具使用的新标杆,它完成了之前模子废弃的任务,是迄今为止最抓久的模子。”

04 Excel深度集成,金融场景先落地

跟GPT-5.4同步上线的,还有一套面向企业和金融机构的OpenAI金融处事套件。

中枢家具是ChatGPT for Excel和Google Sheets测试版。ChatGPT平直嵌进电子表格的单位格里,你不错让它帮你搭财务模子、作念分析、更新数据。OpenAI暗意,这是用团队照旧依赖的公式和结构来职责。

套件还整合了FactSet、MSCI、Third Bridge、Moody's这些数据源,推出一套可复用的Skills功能,消散盈利预览、可比公司分析、DCF估值分析、投资备忘录撰写这些高频场景。

OpenAI相配专注于改良GPT-5.4创建和剪辑电子表格、演示文稿和文档的智力。

OpenAI我方有个里面投行基准测试。GPT-5 Thinking在这个测试里的得分是43.7%,而GPT-5.4 Thinking平直干到了88.0%。

在另一个模拟低级投行分析师电子表格建模任务的测试里,GPT-5.4平均得分87.3%,GPT-5.2是68.4%。

投资公司Walleye Capital的AI处理决策主宰丹尼尔·斯威基(Daniel Swiecki)称,在他们里面的财务和Excel评估里,GPT-5.4准确率提高了30个百分点。他把这归因于模子更新和情景分析的推广自动化。

法律AI平台Harvey的独揽连络主宰尼科·格鲁彭(Niko Grupen)也挑剔说念:GPT-5.4在他们BigLaw Bench评估里得分91%,“在结构化复杂来往分析、跨长篇协议保抓准确性、提供法律从业者需要的高细节方面,咫尺比别的模子齐好”。

05采集搜索智力大幅普及

{jz:field.toptypename/}

GPT-5.4在智能体采集搜索方面也作念了改良。

在BrowseComp测试里,掂量AI智能体能多抓久地浏览采集,找到那些难找的信息时,GPT-5.4比GPT-5.2普及了17个百分点,GPT-5.4 Pro以89.3%的收货创下该基准测试的新高。

OpenAI解释说,在BrowseComp里他们用了搜索断绝列表,扼杀了包含基准谜底的网站,属目稠浊。GPT-5.4测试时刻比GPT-5.2晚,分数变化反应了模子、搜索系统和互联网气象的变化。GPT-5.4用的是更长、更新的断绝列表。

落实到骨子体验上,这意味着GPT-5.4 Thinking在回答那些需要从网上多个来源采集信息的问题时更靠谱。它能更抓久地跨多轮搜索,找到最关系的来源,相配是对那些大海捞针式的问题,然后把它们详细成明晰的谜底。

06可诱骗性,能半途打断迂曲想法

ChatGPT里的GPT-5.4 Thinking多了个新功能:关于较长、较复杂的查询,它会先给一个职责摘抄,你不错看到它筹算怎么干。

更进犯的是,你不错在它响应历程中添加指示或迂曲想法,毋庸重新开动,也毋庸多轮对话。OpenAI说这能让模子输出更贴近你想要的驱散。

这个功能当今在网页版和Android独揽上能用,iOS行将上线。

模子在费事任务上也能想考更万古刻,同期对对话早期方法保抓更强的坚忍。这意味着它能处理更长的职责流和更复杂的教唆,同期保抓谜底的连贯性和关系性。

07反馈与体验:早期用户的真实感受

AI写稿助手公司HyperWrite的CEO马特·舒默(Matt Shumer)提前试了GPT-5.4一周。他提到了一个特酷爱酷爱的细节:我方以前一直是Pro系列的重度用户,因为Pro险些能竣工应付系数任务。但此次,GPT-5.4模范版冲破了这个习气。

“即使在模范花式下,GPT-5.4也比之前的Pro版好,不可想议。”他说编码智力强得离谱,在Codex里可靠性惊东说念主。“编码问题基本上处理了。”Pro版近乎竣工,能处理其他模子处理不了的问题,但对浮浅使用来说性能有点填塞。

他也提到几个问题:前端界面体验不如Claude Opus 4.6和Gemini 3.1 Pro;会忽略一些不问可知的践诺布景,比如缱绻旅行行程时选了春假时间东说念主挤东说念主的地点;在OpenClaw里测试时,顺序常常在职务完成前一忽儿停住。

但他临了给的论断是:举座上开始太多,那些吹毛求疵的小问题齐显得不足轻重了。

天下顶尖免疫学内行德里亚·乌努特马兹(Derya Unutmaz)也试了Pro版,用了几天。“它展现出了相对更高的创造力、知竭力和抽象智能,比5.2 Pro模子更频繁地建议问题。”他在AGI-2测试里给GPT-5.4 Pro打了83%的得分。

08订价:比以前贵,但值得

API订价上,GPT-5.4比GPT-5.2贵了一些。

GPT-5.4模范版每百万输入token为2.5好意思元、输出15好意思元;Pro版输入30好意思元、输出180好意思元。与之比较,GPT-5.2是输入1.75好意思元、输出14好意思元;GPT-5.2 Pro是输入21好意思元、输出168好意思元。

其中,输入非凡27.2万token的部分,按两倍费率算。Codex里默许压缩上限即是27.2万token,开导者不错手动往上调,超出部分才触发高计费。

OpenAI发言东说念主对此给出了三档次由:一是复杂任务智力更强,包括编码、电脑操控、深度连络、高档文档生成、器具调用;二是连络道路图上有枢纽技能开始;三是更高效的推理机制在换取任务上销耗更少推理token,能对消一部分单价飞腾。发言东说念主说,即便提价,GPT-5.4的订价照旧低于同等智力的竞品前沿模子。

在ChatGPT端,GPT-5.4 Thinking从3月5日起向Plus、Team及Pro用户开放,取代此前的GPT-5.2 Thinking。GPT-5.2 Thinking将在三个月后于2026年6月5日认真退役,时间不错在模子采取器的传统模子里找到。

GPT-5.4 Pro只对Pro和Enterprise想法用户开放,企业息争释版用户可通过不停员建设提前开启走访权限。

在安全方面,OpenAI把GPT-5.4定位为高采集智力模子,沿用了GPT-5.3 Codex的雷同保护措施,包括监控系统、受信任走访边界,对零数据保留(ZDR)名义的高风险肯求作念异步阻断。

他们也在抓续连络想维链(CoT)的可监控性。新开源的评估叫CoT可控性,测的是模子能不成成心稠浊推理来走避监控。论断是GPT-5.4 Thinking边界CoT的智力较低,这对安全来说是善事,诠释CoT监控仍然灵验。

写在临了

当你再次通达ChatGPT时,你面临的照旧不再是一个只是擅长咬文嚼字的聊天机器东说念主。

回看这两年的轨迹:从陪东说念主聊天的对话框,到补助敲代码的副手,再到今天平直接纳鼠标键盘、接办复杂表格的数字职工。此次的GPT-5.4未必莫得创造出全新的表面基座,但它把纸面上的潜能透顶酿成了桌上的坐褥力。

技能立异通常不是伴跟着巨响到来的,而是潜移暗化地浸透进每一次版块更新里。比及咱们真实察觉时,阿谁也曾只会回答问题的AI,其实照旧悄无声气地坐上了你的工位。



上一篇:开云体育 王志刚委员:一多数科技改换后果分解背后是数学、芯片等的跳跃
下一篇:没有了