搜索

郑州万能胶生产厂家 OpenAI发布强业模型GPT-5.4,自动操作电脑,插件支持AI玩转Excel和金融分析

发布日期:2026-03-11 21:32 点击次数:185

PVC管道管件粘结胶

快有判断力的GPT-5系列模型GPT-5.3 Instant问世才天郑州万能胶生产厂家,美东时间5日周四,OpenAI就发布了全新的旗舰基础模型GPT-5.4,在ChatGPT、API以及开发工具Codex中同步上线。

OpenAI称GPT-5.4是“迄今能力强、的业工作前沿模型”,面向企业办公与复杂知识工作场景。相比此前版本,GPT-5.4的大变化在于强化AI智能体(Agent)的能力。在API和Codex中,GPT-5.4次实现了原生“电脑操作”,支持智能体跨软件执行复杂工作流。

GPT-5.4不仅能生成文本或代码,还次将原生电脑操控能力引入通用模型,能直接操作电脑软件、浏览网页、控制鼠标和键盘完成任务,并可与电子表格、金融分析工具等企业应用度整,度嵌入微软Excel和谷歌表格。

在ChatGPT中,GPT-5.4支持“提前展示思维过程”,允许用户在模型响应过程中调整任务向,并提升了度网页搜索与长逻辑语境下的上下文保持能力。

业内认为,GPT-5.4的系列升标志着AI模型正从“对话工具”走向自动化执行任务的数字代理系统,进步渗透企业生产力软件与业知识工作。

OpenAI本周四同时出两个版本,包括擅长复杂理的GPT-5.4 Thinking以及能的GPT-5.4 Pro,分别面向付费用户和端企业用户。

在计机操控基准测试OSWorld-Verified中,GPT-5.4以75.0的成功率越人类平均水平72.4,较前代GPT-5.2的47.3大幅跃升。同期发布的财务服务套件显示,GPT-5.4在OpenAI内部投行基准测试中的得分从GPT-5的43.7跃升至88.0。

早期测试机构给出积反馈。投资公司Walleye Capital的AI解决案主管Daniel Swiecki表示,GPT-5.4在内部财务和Excel评估中准确率提升了30个百分点。AI人才平台Mercor的CEO Brendan Foody称其为该公司“迄今尝试过的佳模型”郑州万能胶生产厂家,并表示GPT-5.4已在Mercor面向业服务工作的APEX-Agents基准测试中排名。

通用模型中次内置原生电脑操控 突破单轮问答边界

GPT-5.4具突破的能力在于其原生电脑操控,这也是OpenAI次在通用模型中内置该能力。通过API和Codex,该模型可像人类样操控计机,跨应用完成多步骤工作流程。

具体而言,GPT-5.4既可通过Playwright等库编写代码来操控计机,也可直接响应截图发出鼠标和键盘指令,开发者还可配置自定义确认策略以适配不同风险容忍度场景。

基准测试数据支撑了这能力的实质进步:在测试桌面航能力的OSWorld-Verified中,GPT-5.4成功率达75.0,不仅过GPT-5.2的47.3,也越了人类基准水平72.4;在浏览器操控测试WebArena-Verified中,成功率为67.3,于GPT-5.2的65.4;在Online-Mind2Web中,仅凭截图即实现92.8的成功率。

在网络搜索能力面,BrowseComp测试显示GPT-5.4较GPT-5.2提升17个百分点,GPT-5.4 Pro以89.3的成绩创下该基准测试的评分纪录。

地产科技公司Mainstay的CEO Dod Fraser表示,在覆盖约3万个房产税门户的测试中,GPT-5.4次尝试成功率达95,三次内成功率达,相比此前的计机操控模型(成功率约73至79)大幅提升,同时完成速度加快约3倍,tokens消耗减少约70。

工具搜索机制重构 大幅降低token消耗

随着工具生态规模扩大,如何管理工具调用成为制约代理系统落地的瓶颈。GPT-5.4在API中引入"工具搜索"(Tool Search)机制,从根本上改变了工具定义的传递式。

此前,模型在每次请求时均需在提示词中预加载全部工具定义,在工具数量庞大的系统中,这会在每次请求中额外消耗数千乃至数万tokens,成本、增加延迟并稀释上下文。新机制下,模型仅接收工具的轻量化列表郑州万能胶生产厂家,仅在实际需要使用某工具时才按需检索其完整定义。

OpenAI以具体数据佐证果:在使用Scale的MCP Atlas基准测试的250项任务中,启用全部36个MCP服务器的配置下,工具搜索模式相较将全部MCP直接暴露于上下文的模式,在保持相同准确率的前提下,总token用量减少47。

Zapier的CEO Wade表示,GPT-5.4在该公司横跨数百个真实工作流的工具使用基准测试中表现优异,pvc管道管件胶"是迄今为止具持续的模型"。

金融与企业场景:Excel度集成,投行任务成绩翻倍

与GPT-5.4同步发布的还有面向企业和金融机构的“OpenAI金融服务”套件,核心产品是ChatGPT for Excel和Google Sheets(测试版)——ChatGPT将直接嵌入电子表格单元格,支持构建、分析和新复杂财务模型。

该套件还整了FactSet、MSCI、Third Bridge和Moody's等数据作伙伴,并出可复用的Skills,覆盖盈利预览、可比公司分析、DCF估值分析及投资备忘录撰写等频金融工作场景。

在内部投行基准测试中,GPT-5.4 Thinking的得分从GPT-5的43.7跃升至88.0;在模拟初投行分析师电子表格建模任务的测试中,GPT-5.4平均得分87.3,远于GPT-5.2的68.4。

法律AI平台Harvey的应用研究主管Niko Grupen表示郑州万能胶生产厂家,GPT-5.4在该公司BigLaw Bench评估中得分91,"在结构化复杂交易分析、跨长篇同保持准确以及提供法律从业者所需的度细节面,目前优于其他模型"。

知识工作与幻觉抑制:对标业人士

OpenAI在多个衡量真实职场输出的基准测试上展示了GPT-5.4的能力边界。在GDPval测试中——该测试涵盖44个职业的知识工作任务,包括销售演示、会计表格、制造业图表等真实工作产出——GPT-5.4在83.0的比较中达到或越行业业人士水平,于GPT-5.2的71.0。

在演示文稿质量评估中,人类评审在68.0的情况下偏好GPT-5.4的输出,原因包括强的视觉美感、丰富的视觉多样以及有的图像生成应用。

在幻觉和事实错误控制面,OpenAI表示GPT-5.4是其"迄今具事实准确的模型":在用户此前标记过事实错误的去标识化提示词测试集上,GPT-5.4的单项陈述错误率较GPT-5.2降低33,完整回应中出现任意错误的概率降低18。

奥力斯    保温护角专用胶批发    联系人:王经理    手机:13903175735(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

在编程能力面,GPT-5.4在SWE-Bench Pro上的表现与GPT-5.3-Codex持平或优,且在各理强度设置下延迟低。Codex的/fast模式可为GPT-5.4带来1.5倍的token生成速度提升,该模式使用相同模型与相同智能,仅在速度层面进行优化。GitHub席产品官Mario Rodriguez表示,GPT-5.4在逻辑理及执行复杂多步骤工具依赖工作流面表现突出,"是企业天就应该采用的模型"。

两个版本分层覆盖不同用户需求 上下文窗口100万token

GPT-5.4 Thinking面向需要度理的通用业场景,GPT-5.4 Pro则为复杂任务设计,追求能上限。

在ChatGPT端,GPT-5.4 Thinking从本周四起向Plus(月费20美元)、Team及Pro用户开放,取代此前的GPT-5.2 Thinking,GPT-5.2 Thinking将在三个月后于2026年6月5日正式退役。

GPT-5.4 Pro仅限Pro(月费200美元)及Enterprise计划用户使用。费用户亦可在系统自动路由时有限接触GPT-5.4。企业和教育计划用户可通过管理员设置提前开启访问权限。

在API端,GPT-5.4以gpt-5.4标识符提供,GPT-5.4 Pro以gpt-5.4-pro提供,两者均可在Codex开发平台使用。API大输出为12.8万token,与此前模型保持致。API及Codex同时支持100万token的上下文窗口,是OpenAI迄今提供的大上下文容量,适跨步骤长链路任务的规划、执行与验证。

定价于前代,率提升部分抵消成本增加

在API定价上,GPT-5.4的价格相较GPT-5.2有所上调。具体如下:

GPT-5.4:输入2.50美元/百万token,输出15美元/百万token(GPT5.2的定价为输入1.75美元/百万token、输出14美元/百万token)GPT-5.4 Pro:输入30美元/百万token,输出180美元/百万token(GPT5.2 Pro为输入21美元/百万token、输出168美元/百万token)Batch及Flex定价享半价优惠,Priority(优先)处理则按标准价格的两倍计费

值得注意的是,当单次输入过27.2万token时,出部分将按两倍标准费率计费。在Codex中,默认压缩上限为27.2万token,开发者可手动上调上限以处理大提示词,出部分触发较计费。

OpenAI对较定价给出三点解释:是在编程、计机操控、度研究、文档生成及工具调用等复杂任务上能力强;二是来自研究路线图的重大技术进步;三是的理机制在相同任务上消耗少理tokens,定程度上抵消了单价上升的影响。OpenAI同时表示,即便提价,GPT-5.4的定价仍低于同等能力的竞品前沿模型。

风险提示及责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符其特定状况。据此投资,责任自负。 相关词条:不锈钢保温     塑料管材设备     预应力钢绞线    玻璃棉板厂家    pvc管道管件胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》郑州万能胶生产厂家,以此来变相勒索商家索要赔偿的违法恶意行为。

查看更多