OpenAI 即将推出全新 AI 助理产品，代号为 Operator，可自动执行多种复杂操作

来源：网络作者：日期：2024-11-14 12:03:57

据报道，OpenAI一直在开展多个与智能代理相关的研究项目。其中一位知情人士表示，最接近完成的事情将是一个在网络浏览器中执行任务的通用工具。

AI助手（AI Agent）是一个能够感知环境、做出决策并执行行动的智能实体。它具有通过独立思考和调用工具逐步完成给定目标的能力。不仅可以为C端提供个性化应用，还可以为B端提供降本增效的解决方案。对于普通用户来说，AI助手的核心功能是自主操作手机，协助完成复杂的推理任务。

OpenAI 首席执行官 Altmann 已经透露了他结束职业生涯的意图。 “我们将拥有越来越好的模型，但我认为下一个重大突破将是人工智能助手，”他几周前在 Reddit 的 Ask Me Anything 论坛上说道。在 3 月份公司年度开发日之前的 OpenAI 新闻发布会上，该公司首席产品官 Kevin Weil 表示：“我认为 2025 年将是 Agent 系统最终进入主流的一年。”

从商业化进程中面临越来越大压力的OpenAI来看，ChatGPT的增量改进可能无法吸引用户支付更高的价格。高管们迫切需要一款突破性的产品来证明对人工智能开发的巨额投资是合理的。

目前，OpenAI已经开源了多功能协作AI Agent-Swarm，可以创建多个Agent来协同工作，更高效地完成任务。其GPT o1模型增强了推理能力，在解决复杂问题和使用户交互自然方面取得了重大进展，使其更适合AI Agent场景。

AI助手被视为通向AGI的核心基础。在硬件厂商必须谈AI的时代，AI助手或许会成为终端智能化的突破口。永兴证券表示，AI Agent或将掌控移动互联网新入口，流量分布格局有望重塑。 AI Agent智能具有很强的交互性和便利性，或许能够突破同一终端上不同App之间原有的天然壁垒。

据科创板报不完全报道，国内外领先厂商纷纷推出AI助手产品——

微软最近低调开源了AI工具OmniParser，可以帮助用户创建个性化代理来操作个人电脑； 10月22日，微软宣布在Dynamics 365中集成10个自主AI Agent，支持OpenAI最新模型o1，具备自主学习能力，可以自动执行复杂的跨平台业务； 9月份，微软推出了名为Windows Agent Arena的基准框架，该框架也属于AI助手开发的范畴。

据 The Information 报道，谷歌计划在 12 月预览其大型行动模型“Project Jarvis”，该模型将帮助用户执行“收集研究、购买产品或预订航班”等任务。

10 月 22 日，Anthropic 为大模型 Claude 迭代了一项新功能——Computer Use，让 AI 像人类一样控制计算机。 Claude3.5 Sonnet是第一个支持计算机控制的模型，可以模拟人类对计算机的操作，包括移动光标、单击按钮和输入文本。

苹果选择将 Siri 与 ChatGPT 集成，以实现更智能的人机交互。还有网友发现，苹果公司已经悄悄发布了两个Ferret-UI的实现版本（分别基于Gemma 2B和Llama 8B），这两个版本是苹果公司在今年5月份发布的。一项让AI理解手机屏幕的技术。

华为公布了一项新研究成果，让AI可以像人类一样操作手机。相关团队提出了一种手机控制架构：轻量级多模态应用控制（LiMAC）。

中国独角兽公司智普AI推出了AI辅助工具AutoGLM。无需手动操作。用户对着手机说话（发出指令），它就能自动打开手机上的各种App，进行网购、订外卖、高铁订餐等。门票，甚至发微信、抢红包、评论朋友圈、整理笔记生成策略、总结论文。

中信证券表示，AutoGLM等终端人工智能助手技术将带来更短的交互路径。接受语音命令并自动完成复杂操作的能力将为消费者带来极大的便利。有望成为AI终端的亮点功能，吸引消费者升级。

华泰证券也表示，AI助手的落地将带来多层面的行业机会。其中，Agent+终端有望推动人机交互方式的变革。除了终端销量和价格的变化外，它们可能对终端应用的商业模式产生更深远的影响。影响。

_交互变化_2021交互趋势