火山引擎AI创新巡展杭州站:豆包1.5深度思考模型解读财报、高考志愿填报等复杂任务表现突出
解释上市公司的财务报告,填写大学入学考试申请,推荐给大家庭的露营设备,并为4月17日的火山引擎AI Innovation Tour的Hungzhou站订购餐点,这些复杂的工作和生活问题由一口气由最新的深层思考模型来解决。
在新闻发布会上,火山引擎总裁谭领带介绍了Doubao 1.5·深思熟虑的模型在数学,编程,科学推理以及诸如创意写作之类的一般任务等专业领域中表现出色。其中,数学推断AIME 2024测试的分数与OpenAi O3-Mini-High(型号)相关。
正如最新的OpenAi O系列型号O3和O4-Mini(模型名称)已经大力探索了多模式的理解一样,Doubao最新模型的多模式能力也经常在新闻发布会上提及。 Tan说:“模型必须能够思考,计划和反思,并且必须支持多模式。就像人类具有远见和听力一样,代理可以更好地处理复杂的任务。”
From OpenAI's first full-featured Agent Operator to Manus (agent name), which is "hard to find a code", AI (artificial intelligence) Agent is becoming the biggest focus in the industry in 2025. Wang Sheng, a partner of Inno Angel Fund, said in an exclusive interview with a reporter from "Daily Economic News" at the beginning of this year, "The ultimate application of this wave of new technologies in AI is the Agent. We are more looking forward to the AI代理今年的突破。”
为了加速代理的实施,火山发动机还推出了OS Agent Solutions和AI Cloud-Native推理套件。 “不断优化模型并保持竞争力;不断降低成本,延迟和改善吞吐量;使产品更易于实施,(发布),例如按钮,Hiagent平台和云本地组件OS代理 - 将来我们将在这三个方面继续努力。”在会议结束后的小组访谈中,谭领带告诉《每日经济新闻》的记者。
“多模式 +深层推理”,Doubao推出了一个新模型
对于新模型,它的性能自然是外界关注的主要方面。在新闻发布会上,谭领带介绍了数学推理AIME 2024测试中的Doubao 1.5的分数与OpenAI O3-Mini-High相关,而编程竞争和科学推理测试的结果接近O1。同时,该模型还表现出在非推断任务(例如创意写作,人文知识问答)中出色的概括能力。
技术报告显示,该新模型采用MOE(专家混合模型)体系结构,总参数为200B,激活参数仅为20B,低于行业中相似模型的50%,并且具有显着的推断成本优势。此外,基于有效的算法,此模型API服务可以达到极低的20毫秒延迟,同时确保高并发。
在特定方案应用程序中,Doubao 1.5·深思熟虑模型主要突出显示其自己的思维和搜索能力以及视觉版本的多模式能力。
“计划从北京开始,然后去日本的堪萨斯州进行为期五天的巡回演出。我希望看到烟花会议并在特殊的温泉中浸泡。请帮助我计划我的行程。”来自“日常经济新闻”的记者发现,Doubao可以在思维过程中独立拆卸该问题,并在烟花会议之日,温泉酒店的保留状态以及运输凭证的应用范围进行了多次搜索。
“除了搜索和思考外,Doubao深思熟虑模型还具有视觉推理能力,使该模型不仅基于文本,而且还基于所见图片进行思考,这更全面。” Tan Tie在新闻发布会上举了一个例子:“ Doubao深入思考模型可以理解非常复杂的企业项目管理过程图表,迅速找到关键信息,并遵循强大的指示,具有强大的能力,可以严格遵循流程图,回答客户问题。”
北京社会科学学院的副研究人员王彭在接受《每日经济新闻》的微信帐户采访时说,具有多模式能力是未来推理模型的趋势。 “多模式功能使模型能够更全面地理解和处理复杂的信息,并且可以在金融,智能客户服务和医疗服务等领域中广泛使用。”
截至目前,Doubao Big Model家族拥有15个“成员”,而Doubao应用程序也已成为国内AI本地应用程序中的顶级播放器。根据Questmobile在4月15日发布的数据,截至2025年2月底,我国家的AI本地应用程序用户数量达到2.4亿,比一月增加了1.15亿。 2025年3月,Doubao的每月活跃用户达到1.16亿,仅次于DeepSeek的1.94亿。
“代理是前进的唯一途径”,火山发动机如何帮助?
在新闻发布会上,谭领带还像往常一样宣布了最新的豆面包型号使用:截至2025年3月,豆面包型号的平均每日使用率超过12.7万亿元人民币,从发行开始时增加了106倍以上。
At the same time, the "Analysis of China's Public Cloud Big Model Service Market Structure, 1Q25" released by international data company IDC in April this year (Note: 1Q25 refers to the first quarter of 2025) shows that in 2024, the number of calls to large models on public cloud in my country reached 114.2 trillion tokens, of which Volcano Engine ranked first with a market share of 46.4%.
关于超过100次的增长,Tan Tie告诉《每日经济新闻》的记者,从长远来看,火山发动机大型型号的代币呼叫数量仍然可能会在未来增长100倍甚至更高。 “需要多长时间取决于模型是否具有重大突破。”
“从去年到今年的增长非常迅速,因为该模型中有几个重大突破:一个是改善基本聊天和信息处理能力和成本下降,而另一个是今年的深入思考功能的启动。”谭泰(Tan Tai)认为,大型模型的迭代将来会引入多个关键节点,例如,是否可以更好地做到视觉推理,是否可以取得更大的进步,等等。”
在谭泰(Tan Tai)的看来,经纪人是使AI真正改变各行各业的唯一方法。 “可以将代理定义为代理人,可以完成诸如利默里克和简单报告之类的任务。从定性的角度来看,代理人应该能够以高专业精神和长时间的方式完成任务。从技术实施的角度来看,如果您不使用思维模型并缺乏反思和计划的能力,就很难被识别为代理。”
为了加速代理商的实施,火山引擎在本新闻发布会上宣布了OS代理解决方案的推出,包括Doubao UI-TARS模型以及VEFAAS功能服务,云服务器,云手机和其他产品。
记者注意到,4月17日,Doubao Big Model团队根据UI-TARS发布并开放了UI-TARS-1.5。它已经在7个典型的GUI(图形用户界面)评估基准中实现了SOTA(标准)性能,并且还展示了其在游戏中的长期推理能力和开放空间中的交互能力。
最近,由克劳德(Claude)的母公司Anthropic启动的MCP(模型上下文协议)已成为领先的国内外制造商的主要关注点,而云制造商(例如阿里巴巴云和腾讯云)也推出了MCP服务。在小组访谈中,谭领带说,火山引擎已经支持MCP,“我认为协议统一非常重要。” “如果我们可以实现统一的协议,每个人的应用程序开发将更快,模型调用将变得更聪明。”
“我们一直致力于成为AI时代最好的云制造商。”谭说:“只要我们维护产品和技术,我们的市场份额就会自然领先。”
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。