OpenAI发布o3模型:新一代AI技术引领未来,o3与o3-mini双版本齐发
OpenAI CEO Sam Altman在直播中提到,OpenAI在12日本次活动的第一天正式宣布推出o1正式版,即所谓的全健康o1。活动最后一天,o3再次出现。推理模型的介绍从头到尾都是呼应的,也算是一种精心的设计。
按理来说,下一代o1应该命名为o2。至于为什么新模型被称为o3,此前有报道称OpenAI是为了避免与名为O2的英国电信服务提供商发生冲突。奥特曼也证实了这一点,称出于对O2的尊重,他没有给出相同的名字。
直播中,奥特曼称o3是“一个非常非常聪明的模型”。 OpenAi的评测结果还显示,o3在软件工程、编写代码、竞技数学、人类博士级别的自然科学知识掌握能力等方面都明显优于o1。同时,测试表明,o3在OpenAI实现通用人工智能(AGI)的目标上取得了突破,最高测试结果达到类人水平。
今年9月,OpenAI发布o1的o1预览版时表示,o1是第一个真正具有通用推理能力的大型模型。其核心能力推理基于GPQA-钻石,这是测试化学、物理和生物专业知识的基准。得到了充分体现。据OpenAI评估,o1在本次测试中全面超越人类博士专家,准确率达到78.3%,而人类专家得分为69.7%。
在12月20日的直播中,OpenAI展示了o3的评测表现:
根据OpenAI 8月份推出的SWE-bench Verified代码生成评估基准,在软件工程能力评估中,o3的准确率得分为71.7,准确率达到71.7%,远超o1的48.9分和o1 Preview的41.3分。也就是说,o3的准确率比o1正式版高出近47%,比o1预览版高出近74%。
在竞技编程网站Codeforces的竞技代码评测中,o3取得了Elo分数2727,o1得分1891,o1预览得分1258。评测结果显示,在竞技代码方面,o3的分数比官方高出44% o1 版本,是 o1 预览版的两倍多。
经过2024年AIME数学竞赛的题目测试,o3的准确度得分为96.7,或者说准确率为96.7%,大大超过了o1预览版的56.7和o1的83.3%。只漏了一道题,相当于顶级数学家的水平。从竞赛数学角度来看,o3的准确率比o1正式版高出15%,比o1预览版高出近71%。
经人类博士专家测试,在测试化学、物理和生物专业知识的基准GPQA-diamond上,o3的准确度得分为87.7,即准确率为87.7%,o1和o1预览得分分别为78.0和78.3 。 o3 的准确率比 o1 高出近 13%,比 o1 预览版高出 12%。
OpenAI 周五还展示了 o3 的推理能力更接近实现 AGI。
ARC-AGI评估结果以100%为最高分,显示o1得分在25%至32%之间,而o3得分最低为75.7%,最高得分为87.5%。从这个成绩来看,o3的最好成绩超过了85%的门槛,达到了人类水平。
ARC-AGI 标准创建者、前谷歌高级工程师、AI 研究员 Franois Chollet 表示,这些 OpenAI 推理模型在 AGI 测试中取得的进展是“稳健的”。
乔莱在社交媒体上发布
与o3模型相比,o3Mini模型在性能和成本之间的平衡方面表现良好,能够以更低的成本提供高效的服务。
在编码评估方面,o3Mini模型表现出了出色的性能提升。在CodeForces评测中,随着思考时间的增加,o3Mini模型的性能不断提升,逐渐超越o1Mini模型。
在平均思考时间内,o3Mini 模型的性能甚至优于 o1 模型,以大约低一个数量级的成本提供可比甚至更好的代码性能。这意味着开发者可以在不增加过多成本的情况下,获得更高效的编程帮助,提高开发效率,降低开发成本。
在数学能力测试中,o3Mini模型在2024年数据集上表现良好。 o3Mini低模型的性能与o1Mini相当,而o3Mini中模型的性能比o1更好。 o3Mini模型在处理GPQA等困难数据集时也能表现出一定的优势,实现近乎即时的响应。
另外,o3Mini模型支持函数调用、结构化输出、开发者消息等一系列功能,与O1模型相当。在实际应用中,o3Mini模型在大多数评估中都取得了相当或更好的性能。
现场演示过程中,直观地展示了o3Mini机型的强大功能。例如,在一项任务中,要求模型使用 Python 实现代码生成器和执行器。当Python脚本启动并运行时,模型成功启动本地服务器并生成包含文本框的用户界面。
用户在文本框中输入编码请求后,模型可以快速将请求发送到API,自动解决任务,生成代码并保存到桌面,然后自动打开终端执行代码。整个过程比较复杂,涉及大量的代码处理,但o3 Mini模型在低推理工作量模式下仍然表现出极快的处理效率。
虽然o3的评测表现看起来很惊人,但OpenAI应该不会很快向公众推出这个新的超级推理模型。
从 12 月 20 日开始,OpenAI 允许安全研究人员注册以预览访问 o3 和 o3-mini。 OpenAI 发言人表示,OpenAI 计划明年初正式发布这些新的 o3 模型。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。