APP下载
APP二维码
联系我们
APP二维码
返回

谷歌发布Gemini 2.5大语言模型,全面超越竞争对手OpenAI和Claude3.7 Sonnet

来源:网络   作者:   日期:2025-03-27 02:11:02  

K图 GOOGL_0

3月26日清晨,Google正式推出了新一代的大型语言模型Gemini 2.5。

Google将Gemini 2.5定义为迄今为止该公司的“最聪明的AI模型”,Gemini 2.5 Pro的实验版本完全超过了OpenAi O3-Mini,Claude3.7 SONNET,Grok-3和DeepSeek-R1在多个基准测试中。 Google DeepMind的首席技术官Koray Kavukcuoglu表示,Gemini 2.5代表了Google目标的下一步,即使“人工智能更聪明,更具推理”。

谷歌gsi__谷歌日报

值得注意的是,Google发布Gemini 2.5大约一个小时后,Openai迫切发布了迄今为止最先进的Image Generator GPT-4O图像生成技术。根据报道,GPT -4O图像生成功能可以准确地渲染文本,严格遵循命令提示,深刻称呼4O知识库和对话环境 - 包括上传图像的次要创建或将其转换为视觉灵感。 OpenAI创始人兼首席执行官Ultraman Sam还使用GPT-4O自拍照在直播期间制作了漫画。

谷歌gsi__谷歌日报

Google的新推论模型,出色的编码和推理技能

根据Google的说法,该公司长期以来一直在探索如何通过加强学习和思维链提示等技术使人工智能更聪明和更多推理。去年12月,Google推出了Gemini 2.0 Flash Thinky模型,这是一种具有快速透明处理功能的多模式推理模型。今年1月22日,Google正式发布了其Gemini 2.0 Flash Thinky推论模型的增强版。

这次发布的最新Gemini 2.5系列模型是Google试图挑战OpenAI“ O”系列推理模型的尝试。作为这一系列模型中最先进的复杂任务模型,Gemini 2.5 Pro实验版超过了Openai O3-Mini,Claude 3.7sonnet,Grok-3和DeepSeek-R1在多个基准测试中,并在LMARENA上排名第一,Lmarena是一个开源平台,用于评估大型语言模型。但是,Google尚未在基准测试中发布Gemini 2.5 Pro和Openai O1,OpenAI O1-Pro和OpenAI O3之间的比较。

Gemini 2.5在编码性能方面取得了重大飞跃,并且擅长创建令人信服的Web应用程序和代理代码应用程序,以及代码转换和编辑。在用于代理代码评估的行业标准SWE基础上,Gemini 2.5Pro使用自定义代理设置得分63.8%。

根据Google发布的演示视频,Gemini 2.5 Pro可以通过从单线提示中生成可执行代码来创建视频游戏的推理能力。例如,恐龙迷你游戏可以用指定的编程语言设计,生成像素化的恐龙图像和有趣的游戏背景。

谷歌gsi__谷歌日报

在推理能力方面,Gemini 2.5 Pro在需要高级推理的一系列基准的最前沿。在“人类的最后一次考试”中(注:“人类的最后一项考试”是由数百名专家设计的数据集,以捕捉人类知识和推理的剪裁),在使用未使用工具的模型中,它也获得了最高得分18.8%,这是当前最先进的分数。

此外,Gemini 2.5 Pro具有本机多模式处理能力和超长上下文窗口,支持文本,图像,音频,视频和代码的多模式输入。上下文窗口达到100万个令牌(约750,000个单词),可以解析完整的“指环王”系列文本,将来将升级到200万个令牌。

谷歌日报_谷歌gsi_

Openai紧急启动4O图像生成功能

Google在深夜推出了最强的推理模型Gemini 2.5后一个小时,Openai还推出了新的GPT-4O图像生成功能。

在此之前,Openai的文学和传记图形模型主要是Dall-E系列。与DALL-E不同,OpenAI的新图像生成器基于其本机多模式GPT-4O模型。 Ultraman在现场广播活动中宣布,本机图像生成功能基于GPT-4O模型,不再需要调用独立的DALL-E文学图形模型。

根据报道,根据GPT-4O的多模式能力,Chatgpt可以更准确地遵循说明,并更准确地在图像上渲染文本,轻松创建结合虚拟和真实的场景。当前,此功能已被启动为Chatgpt的默认图像生成器,Plus,Pro,Team和Free用户,企业和教育用户很快将被允许访问。

根据OpenAI正式发布的案例,GPT-4O图像生成功能可以生成手写单词,准确地了解及时单词中的每个细节,并且图像清晰度与高清照片的图像清晰度相当。

例如,当输入及时的单词时,“这是用手机拍摄的玻璃白板的广角图像,射击位置是一个俯瞰海湾桥的房间。可以看到一个女人在视野中写作,穿着带有大型Openai徽标的T恤,上面印有大型Openai徽标。手写看起来很自然,但有点混乱,我们可以看到录像师的详细信息。上面印有大型OpenAi徽标”和“摄影师的反射”。

_谷歌gsi_谷歌日报

GPT-4O图像生成功能也可以成为实用的生产力工具。例如,如果您想为餐厅设计菜单图片,则用户将在及时单词中陈述不同菜肴的名称,价格和主要特征,GPT-4O可以生成满足需求的菜单图片并可以在商业上使用。

谷歌日报__谷歌gsi

但是,OpenAI还承认该模型不是完美的,并且在裁剪,幻觉,精确的绘图等方面仍然存在多个限制。例如,当几乎没有上下文信息的信息时,图像生成函数可能会构建信息,并且很难在高复杂性下呈现非LATIN语言并产生错误的字符。 Openai表示,它将在首次发布后通过模型改进来解决这些问题。

一方面,Google发布了迄今为止最聪明的推理模型,挑战了Openai的“ O”系列推理模型。另一方面,OpenAI启动了GPT-4O图像生成功能,以应对Google的“家庭桶”多模式功能带来的压力。两家硅谷技术巨头的背后是全球AI竞赛的持续升级。随着AI竞争的越来越激烈,制造商正在加速开发速度。无论是推理模型,多模型模型还是AI代理,新的技术进步和突破都可能继续引入新的技术进步和突破。

分类: 股市
责任编辑: admin
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。

相关文章:

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。