您的位置 首页 科技

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

未来访问 OpenAI 旗下最新大模型,需要通过身份验证的 ID(即 OpenAI 支持的国家/地区之一的政府签发的身份证件,且一个身份证件每 90 天只能验证一个组织),未通过验证将影响模型使用。

未来访问 OpenAI 旗下最新大模型,需要通过身份验证的 ID(即 OpenAI 支持的国家/地区之一的政府签发的身份证件,且一个身份证件每 90 天只能验证一个组织),未通过验证将影响模型使用。

新规引起的争议尚未平息, OpenAI 于今天凌晨顺势推出了三款 GPT-4.1 系列模型,不过,只能通过 API 用,不会直接出现在 ChatGPT 里。

GPT-4.1:旗舰模型,在编码、指令遵循和长上下文理解方面表现最佳,适用于复杂任务。

GPT-4.1 mini:小型高效模型,在多个基准测试中超越 GPT-4o,同时将延迟降低近一半,成本降低 83%,适合需要高效性能的场景。

GPT-4.1 nano:OpenAl 首个超小型模型,速度最快、成本最低,拥有 100 万 token 上下文窗口,适用于低延迟任务如分类和自动补全。

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

尽管对 OpenAI 混乱的命名逻辑早有心理准备,但 GPT-4.1 还是遭到了网友的一致吐槽,就连 OpenAI 首席产品官 Kevin Weil 也自嘲:「这周我们的命名水平肯定也没啥进步」。

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

展开全文

GPT-4.1 模型卡🔗 https://platform.openai.com/docs/models/gpt-4.1

编程+长文本,GPT-4.1>GPT-4.5?

技术才是硬道理,虽然命名饱受诟病,但 GPT-4.1 的实力还是有目共睹。

OpenAI 宣称 GPT-4.1 系列模型在多项基准测试中表现出色,堪称当前最强大的编程模型之一。

能够自主完成复杂编码任务

前端开发能力提升

减少多余代码修改

更好地遵循 diff 格式

工具调用更加一致稳定

OpenAI 更是将 GPT-4.1 比喻为「quasar」(类星体),暗示它像类星体一样在 AI 领域中具有强大的影响力和能量。

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

在真实软件工程能力的评估标准 SWE-bench Verified 基准测试中,GPT-4.1 得分 54.6%,较 GPT-4o 提升 21.4 个百分点,较 GPT-4.5 提升 26.6 个百分点。

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

GPT‑4.1 在 diff 格式方面经过专门训练,更能稳定输出修改片段,节省延迟与成本。此外,OpenAI 已将 GPT‑4.1 的输出 token 上限提升至 32768 tokens,便于应对全文件重写的需求。

在前端开发任务中,OpenAI 盲测结果显示,80%评估者偏爱 GPT-4.1 生成的网页。

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

OpenAI 今天凌晨的直播也邀请了 Windsurf 的创始人兼 CEO Varun Mohan 分享经验。Varun 透露,其内部基准测试显示,GPT-4.1 性能比 GPT-4 提升了 60%。

鉴于 GPT-4.1 的出色表现,Windsurf 决定为所有用户提供一周的 GPT-4.1 免费体验,随后以大幅折扣继续提供该模型。另外,Cursor 用户现在也可以免费使用 GPT-4.1。

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

在真实对话中,尤其是多轮交互任务中,模型能否记住并正确引用上下文中的信息至关重要。在 Scale 的 MultiChallenge 基准测试中,GPT‑4.1 比 GPT‑4o 提升了 10.5 个百分点。

IFEval 是一个以明确指令(如内容长度、格式限制)为基础的测试集,用于评估模型是否能遵循具体规则输出内容。GPT-4.1 的表现依然力压 GPT-4o。

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

在多模态长上下文基准 Video-MME 的无字幕长视频类别中,GPT-4.1 以 72.0% 的得分创下新纪录,领先 GPT-4o 6.7 个百分点。

模型小型化是 AI 商业化的必然趋势。

「以小博大」的 GPT‑4.1 mini 在多项测试中甚至超越 GPT-4o,同时在保持与 GPT‑4o 相似或更高智能表现的同时,延迟几乎减半,成本降低了 83%。

OpenAI 研究员 Aidan McLaughlin 发文称,有了 GPT-4.1 mini/nano,现在可以用一种成本低得多(25 倍更便宜)的方式实现类似 GPT-4 质量的功能,性价比超高。

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

GPT‑4.1 nano 则是 OpenAI 目前速度最快、成本最低的模型,适合需要低延迟的任务。

它同样支持 100 万 token 的上下文窗口,在MMLU、GPQA和 Aider polyglot 编程测试中的得分分别为 80.1%、50.3% 和 9.8%,均高于 GPT-4o mini,适合分类、自动补全等轻量任务。

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

不过, GPT-4.1 只能通过 API 用,不会直接出现在 ChatGPT 里。但好消息是,ChatGPT 的 GPT-4o 版本已经悄悄加入了 GPT-4.1 的部分功能,未来还会加更多。

GPT‑4.5 Preview 将于 2025 年 7 月 14 日下线。开发者 API 的核心模型也将逐步替换成 GPT-4.1。

据官方解释,GPT-4.1 在性能、成本和速度上都更胜一筹,而 GPT-4.5 中用户喜爱的创意表达、文字质量、幽默感与细腻风格会在以后的模型里继续保留。

GPT-4.1 在指令理解方面也升级了,不管是格式要求、内容控制,还是复杂的多步任务,甚至是多轮对话中保持前后一致,也都做得更好。

长文本是 GPT-4.1 系列的一大亮点,其支持高达 100 万 token 的超长上下文处理能力,约等于 8 套完整的 React 源码,或成百上千页文档,远超 GPT-4o 的 12.8 万token,适用于大型代码库分析、多文档审阅等任务。

在「大海捞针」测试中,GPT-4.1 精准检索超长上下文信息,表现优于 GPT-4o;在搜索测试中,其区分相似请求和跨位置推理能力更强,准确率达 62%,远超 GPT-4o 的 42%。

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

尽管支持超长上下文,GPT-4.1 的响应速度还不慢,128K token 请求约 15 秒,nano 型号低于 5 秒,OpenAI 还优化了提示缓存机制,将折扣从 50% 提升至 75%,用起来更便宜。

在今天凌晨的直播演示环节,OpenAI 通过两个案例充分展示了 GPT-4.1 强大的长上下文处理能力和严格的指令遵循能力,对于开发者来说,或许也是相当实用的的使用场景。

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

在第一个案例中,演示者让 GPT-4.1 创建了一个可以上传和分析大型文本文件的网站,然后使用这个新创建的网站上传了一个 NASA 的 1995 年 8 月的服务器请求日志文件。

演示者在这个日志文件中「偷偷」插入了一行非标准的 HTTP 请求记录,让 GPT-4.1 分析整个文件并找出这个异常记录,结果,模型成功地在这个约 45 万 token 的文件中找到了这行异常记录。

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

在第二个案例中,演示者设置了一个系统消息,让模型扮演日志分析助手,规定了输入数据必须在<log_data>标签内,用户问题必须在<query>标签内。

当演示者问了一个没有用<query>标签包裹的问题时,模型拒绝回答,当正确使用标签后,模型准确回答了关于日志文件的问题。相比之下,之前的 GPT-4o 则会忽略这些规则限制,直接回答问题。

OpenAI 的真正大招,是能像费曼一样思考的推理模型

OpenAI 还没正式推出 o3,但已经有些消息传出来了。

据 The Information 援引三位参与测试的知情人士消息称,OpenAI 计划本周推出的全新 AI 模型将能跨学科整合概念,提出涉及从核聚变到病原体检测等全新实验思路。

OpenAI 自去年 9 月首次推出以推理为核心的模型,这类模型在处理数学定理等可验证问题时表现尤为出色,思考时间越长,效果越好。

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

这种推理模型像特斯拉或科学家费曼那样,能整合生物学、物理学及工程等多领域知识,提出独特见解。要知道,现实里,这种跨学科成果得靠团队 耗时费力的合作,但 OpenAI 的新模型可独立完成类似任务。

ChatGPT 的「深度研究」工具支持浏览网页、整理报告,科学家可借此总结文献并提出新实验方法,展示了这方面的潜力。据一位测试者介绍,科学家可以使用该 AI 阅读多个科学领域的公开文献,总结已有实验,并提出尚未尝试过的新方法。

现有的推理模型也已经大幅提升科研效率。

The Information 举例称,伊利诺伊州阿贡国家实验室的分子生物学家 Sarah Owens 利用 o3-mini-high 模型,快速设计出应用生态学相关技术检测污水病原体的实验,节省数天时间。

化学家 Massimiliano Delferro 则用 AI 设计塑料分解实验,获得包括温度和压力范围的完整方案,效率远超预期。在今年 2 月的「AI 即兴实验」中,测试者使用 o1-pro 和 o3-mini-high 评估建设电厂或矿山在特定地理区域内的潜在环境影响,效果也远超预期。

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

报道称,在田纳西州橡树岭国家实验室举行的一次实验活动中,OpenAI 总裁 Greg Brockman 对来自九个联邦研究所的千名科学家表示:

「我们正在朝着一种趋势发展——AI 会花大量时间『认真思考』重要的科学问题,而这将使你们在接下来的几年里效率提高十倍甚至百倍。」

目前,OpenAI 已承诺为多个国家实验室提供私有访问权限,让他们使用托管在洛斯阿拉莫斯国家实验室超级计算机上的推理模型。

然而,理想很丰满,现实却很骨感。在很多情况下,AI 给出的建议与科学家验证这些想法的能力之间仍存在差距。比方说,模型可建议激光强度以释放特定能量,但仍需模拟器验证;涉及化学或生物的建议则需实验室测试。

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

OpenAI 也曾发布名为 Operator 的 AI Agent,但却因常出现错误遭到吐槽。

据知情人士透露,OpenAI 计划通过「基于人类反馈的强化学习」(RLHF),在用户实际使用数据的基础上筛选失败案例,并以成功示例训练 Operator,以此改进表现。

Amazon AGI SF Lab 负责人、前 OpenAI 工程主管 David Luan 提供了一个有趣的视角。他表示,在推理模型出现前,如果一个传统 AI 模型「发现了一个全新数学定理」,因为训练数据中没有,它反而会被「惩罚」。

此外,OpenAI 也正在开发更先进的编程 Agent。OpenAI CFO Sarah Friar 今年 3 月份在伦敦高盛峰会上透露:

「接下来我们要推出的是我们称之为 A-SWE 的产品。顺便说一句,我们的营销水平确实不是最强的(笑),A-SWE 指的是『自主型软件工程师(Agentic Software Engineer)』。」

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

她表示,A-SWE 不只是像现在 Copilot 那样辅助你团队中的软件工程师,而是真正具备「自主能力」的软件工程师,它可以独立为你开发一个应用。

只需要像给普通工程师一样提交一份 PR(Pull Request),它就能独立完成整个开发过程。

「它不仅能完成开发,还能做所有工程师最讨厌的那些工作:它会自己做 QA(质量保障)、自己测试并修复 bug、还会写文档——这些通常很难让工程师主动去做的事。所以,你的工程团队战斗力将被极大地放大。」

一方面,像 GPT-4.1 这样的模型通过超长上下文和精准指令遵循能力,已能处理比以往更复杂的任务;另一方面,推理模型和自主型 Agent 正打破传统 AI 的局限,向真正的自主思考能力迈进。

我们正在招募伙伴

📮 简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或

本文来自网络,不代表冰河马新闻网立场,转载请注明出处:http://l9p9k9.lcvt.cn/23577.html

作者: wczz1314

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部