OpenAI连续12天直播展示最新AI技术,推动通用人工智能发展
CNBC评论称,这次连续12天的直播是OpenAI将焦点转向技术、为产品造势的一种方式。这是该公司积极增长计划的一部分,因为该公司正在与初创公司和科技巨头争夺生成人工智能市场的更大份额。然而,该活动因其强有力的年终促销而受到某些方面的赞扬,但也有人批评该活动更多的是炒作而不是实质内容。
《纽约》杂志评论称,OpenAI目前正面临内部领导层变动、与微软的资源紧张以及AGI进展的争论。本次活动在展示新产品、新功能的同时也表现出了一定的防御性。
让我们回顾一下OpenAI敲开AGI大门以来的12天。
第一天(当地时间12月5日):满血的o1模型和ChatGPT Pro
山姆奥特曼首次直播
正式版o1提高了推理逻辑能力。它可以解决国际数学奥林匹克资格考试中83%的题目(GPT-4o在该测试中仅得分13%)。
响应时间得到改善。在演示中,研究人员提出了一个问题:列出公元2世纪罗马帝国的统治者,包括他们的统治时期和成就。 o1 花了近 18 秒的时间才回答,比 4o 型号慢很多,比 o1-preview 快约 60%。
解锁多模态图像识别能力。能够抄写笔迹、测量相对尺寸,甚至解释如何将随机零件安装到更大的机器中。
o1完整健康版的响应时间得到了改善
同时,ChatGPT Pro订阅计划也在当天推出,售价为每月200美元,提供无限制使用o1、高级语音模式等模式。
大多数评论对o1完整版的推出较为积极,但也有一些用户抱怨,在缺乏高级功能的情况下,o1仍然只是一个“预览版”,还有一些用户对o1中缺乏免费产品表示不满。一天的更新。
对于ChatGPT Pro,有分析人士指出,这进一步证明了大机型“烧钱”的速度。在日益激烈的AI竞争中,OpenAI迫切需要通过o1模型来证明自己。
第2天(当地时间12月6日):强化学习微调(RFT,Reinforcement Fine-Tuning)
用户可以利用少量的训练数据,快速构建特定领域的专家级模型。
OpenAI 研究人员表示,强化微调不仅仅是教学模型输出。它的工作方式是,当模型发现问题时,研究人员给予模型空间仔细思考问题,然后使用强化学习来评估模型给出的最终答案。 ,研究人员可以强化产生正确答案的想法并抑制产生错误答案的想法。
增强微调后的o1-mini在top@1(正确答案在列表第一个位置的概率),top@5(正确答案在列表前5个位置的概率) )和top@max(输出包含正确答案的概率)指标,性能明显优于更强大的o1。
o1-mini与o1增强微调后的性能对比
OpenAI高级副总裁Mark Chen表示,微调能力的增强意味着小规模模型可以“从高中水平跳跃到专家水平”,为企业和科研机构提供了强大的工具。
第三天(当地时间12月9日):Sora Turbo正式发布
OpenAI 发布 Sora Turbo
Sora Turbo 可以生成长达 20 秒的 1080p 视频,支持横屏(16:9)、方屏(1:1)和竖屏(9:16)的各种常见比例,并且可以对生成的视频进行 Remix(重新混合)。 Mix):替换、删除或重建视频中的元素,重新剪切:找到最佳帧然后扩展它,循环编辑,混合:无缝合并和编辑两个视频,故事板编辑:准确指定每个帧的输入,风格预设:用于创建视频和其他操作的预设样式。
奥特曼说,最让他兴奋的是与他人共同创造的轻松感,这感觉像是一个有趣的新事物。你可以将 Sora 视为 GPT-1 的视频版本。
根据网友的实际反馈,对物理定律的理解还不够好,仍然会出现人手不自然、文字乱码、跑步时动物飞走等情况。
有外媒也指出,《Sora》的上映未能达到最初的预期。尽管 OpenAI 努力推出更快、更实惠的版本,但最终产品缺乏预期的高级功能。与早期的 ChatGPT 相比,Sora 目前看起来更像是视频编辑软件,而不是突破性的人工智能。
美联社指出,像Sora这样的Vincent Video AI工具被认为是创建新娱乐和营销视频的一种节省成本的方式,但它们也引发了人们的担忧,即它们是否可以轻松冒充政治和其他领域的真人。 OpenAI 发布了 Sora,以限制角色的描绘,防止冒充和深度伪造等滥用行为。
第4天(当地时间12月10日):Canvas升级
Canvas 是 OpenAI 今年 10 月推出的一项新功能,OpenAI 将其定义为“一种使用 ChatGPT 编写和编码的新工作方式”。
Canvas 在单独的窗口中打开,用户和 ChatGPT 不仅通过对话,还通过共同创建和完善想法来协作开展项目。
您可以协同编辑文档、修改标题、添加表情、调整文字长度等。
Canvas还支持Python代码运行和调试,可以直接查看文本和图形输出。 ChatGPT可以辅助调试并提供修改建议,以便用户快速迭代代码。
画布界面
外媒对Canvas给予了积极评价,认为它有效提升了用户与AI在写作、编码方面的协作体验,标志着AI工具在人机交互领域的又一次进步。
第五天(当地时间12月11日):ChatGPT正式集成苹果系统
ChatGPT正式集成苹果系统
ChatGPT正式集成到Apple系统中。用户可以通过Siri访问ChatGPT功能并支持语音控制设备。
当Siri确定ChatGPT能够更好地满足用户的请求时,它会自动将请求转发给OpenAI系统。用户在操作前需要启用该功能,以确保隐私。
苹果的智能写作工具引入了ChatGPT功能。用户不仅可以优化总结文档并提取关键信息,还可以从头开始创建新文档,甚至结合DALL-E图像生成技术将图片融入到写作过程中。
用户还可以点击苹果的“相机控制”按钮来完成与视觉智能相关的任务,例如快速识别眼前的物体,或者深入了解所看到的内容、翻译、总结等。
路透社指出,此次发布恰逢圣诞假期购物季,这也是该公司一年中利润最高的销售时期,可能会对苹果产品的销售产生影响。目前苹果智能功能的缓慢推出也让一些投资者对iPhone 16销售周期的强劲程度感到担忧。
第6天(当地时间12月12日):增强的ChatGPT高级语音模式
GPT-4o多模态能力进一步增强
GPT-4o增强了多模态能力,推出实时视频理解能力,还推出限时圣诞老人语音模式。
用户可以直接输入音频,听懂并直接输出音频,并且可以将手机图片或短信显示到ChatGPT,ChatGPT会对这些内容进行解读和分析,协助用户回复消息、工作等。
第 7 天(当地时间 12 月 13 日):项目功能发布
项目界面
Project允许用户将文件、聊天记录等信息收集到一个“Project”中,这与OpenAI竞争对手Anthropic之前推出的新Claude功能类似。
您可以进行文件上传、设置个性化指令等操作。它还支持将过去的聊天记录添加到项目中并自定义ChatGPT对话。创建新对话时,您还可以自动搜索项目中的其他信息,以提供更准确的答案。此外,它还支持Canvas界面,可以通过ChatGPT Search轻松上网。
第8天(当地时间12月16日):ChatGPT搜索开放
ChatGPT搜索正式向所有用户开放,优化搜索速度和准确性,新增语音搜索功能和地图集成,全球同步上线,提升实时信息获取体验。
以更自然、对话的方式提出问题,ChatGPT 可以选择通过网络消息进行回复。如果您询问得更深入,ChatGPT 将考虑您聊天的完整上下文并提供更好的答案。
ChatGPT 搜索演示对话
新媒体集团VoxMedia总裁表示,ChatGPT Search有望更好地突出和归因可信新闻来源的信息,使受众受益,同时扩大提供优质新闻的出版商的影响力。
第9天(当地时间12月17日):o1 API正式版
OpenAI 将 o1 API 称为更强大的模型、新的定制工具以及改进的性能、灵活性和经济高效的升级。
支持函数调用、结构化输出和可视化函数;更新支持低延迟自然对话体验实时API,实现简单的WebRTC集成,GPT-4o音频定价降低60%,GPT-4o mini音频速率降低至1/10;支持偏好微调,更容易定制根据用户和开发人员偏好的模型;并还推出了新的 Go 和 Java SDK beta 版本。
实时API接口
OpenAI 将今天的发布会命名为“开发者的节日礼物”。
第十天(当地时间12月18日):ChatGPT热线开通
只要拨打免费电话,即可免费使用ChatGPT 15分钟
发布1-800-CHAT-GPT服务,支持WhatsApp即时通讯。同时,只要拨打免费电话,OpenAI将通过热线提供15分钟的免费ChatGPT使用时间。
OpenAI 首席产品官 Kevin Weil 表示:“我们刚刚开始让每个人都更容易使用 ChatGPT。”
有外媒试用该服务后报道称,AI语音非常逼真,但每月通话时间限制为15分钟,并且可能存在隐私和安全问题。
第11天(当地时间12月19日):ChatGPT桌面版增加跨应用访问功能
ChatGPT桌面版支持跨应用访问
ChatGPT 的桌面版本可以从其他应用程序读取数据并实现实时协作。增加了对更多编程环境和生产力工具的支持,可以与Apple Notes等无缝连接,并且支持在使用桌面应用程序时开启高级语音模式(该功能需要用户为每个应用程序手动开启)。
第12天(当地时间12月20日):o3模型发布
OpenAI 12天12场直播结束,发布推理模型o3系列
最新推理模型o3、o3-mini发布,推理能力大幅提升,支持多模态推理。
据介绍,在编码测试SWE-Bench Verified中,o3性能较o1提升22.8%;在Codeforces竞技编程中,获得2727分,相当于排名第175位的人类选手,甚至超越了OpenAI的首席科学家(2655分);在数学竞赛 AIME 2024 和专家科学题基准 GPQA Diamond 中的表现得到显着提升;在让很多人工智能和数学家无所适从的最难数学和推理挑战 FrontierMath 中,o3 解决了 25.2% 的问题,没有其他模型超过 2%。
OpenAI 还表示,它正在使用一项新技术“深思熟虑的调整”,以使 o3 等模型符合其安全原则。
François Cholet 对 o3 不同计算模式的测试结果
ARC-AGI(通用人工智能抽象与推理语料库)的发起人、Keras(Python 编写的高级神经网络 API Chollet)之父 Francois Cholet 认为,虽然 o3 给人们留下了深刻的印象,迈向 AGI 的重要里程碑,它不是 AGI。还有不少非常简单的 ARC-AGI-1 任务是 o3 无法解决的。同时,也有迹象表明,ARC-AG I-2 对于 o3 来说仍然极具挑战性,“这表明创建不饱和的、有趣的基准仍然是可行的,这些基准对人类来说很容易,但如果不涉及专业知识,对人工智能来说是不可能的。 ” .当创建这样的测试变得完全不可能时,我们就会拥有 AGI。”
路透社评论称,o3的发布表明OpenAI与谷歌等竞争对手的竞争日趋激烈,双方都在努力创建能够解决复杂问题的更智能模型。谷歌于12月初发布了第二代人工智能模型Gemini,旨在重新夺回在人工智能技术竞争中的领先地位。
此外,OpenAI发布o3后,《华尔街日报》发表题为《人工智能的下一次大飞跃落后于计划且成本过高》的文章,指出OpenAI正在致力于其代号为“猎户座”的新项目。人工智能项目遇到诸多问题,项目进度滞后,成本巨大。文章还指出了对“数据瓶颈”的担忧:“目前还不清楚它何时或是否会成功,而且世界上可能没有足够的数据让它变得足够聪明。”
奥特曼转发了这篇文章,表达了自己的不满。
第13天复活节彩蛋(当地时间12月22日):Plus用户Sora限时无限次使用(圣诞节假期)
奥特曼宣布,12月下旬,随着圣诞假期临近,人们从工作中解脱出来,OpenAI的算力将不再紧张,因此所有Plus用户将在假期期间获得无限的Sora访问权限。
萨姆·奥尔特曼的推文
在OpenAI持续密集发布的新品中,不难发现ChatGPT Pro的推出进一步证明了大模型的“烧钱”速度。多模态、定制化、隐私等“安全易用”相关内容被多次强调。这也反映出OpenAI迫切需要通过更强的模型产品来证明自己。
可以看到的是,AI竞争日趋激烈。谷歌、Pika等竞争对手也在这12天内发布了自己的新产品来“狙击”,而OpenAI面临的最大挑战不是别人,正是前联合创始人埃隆·马斯克(Elon Musk)。马斯克目前已经收购了人工智能初创公司xAI,并准备在特朗普政府中发挥重要作用。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。