高级智能体发展迅猛，AI 助理工具引领硬件智能化风潮

来源：网络作者：日期：2024-11-02 11:01:40

漫威电影《复仇者联盟》中，钢铁侠与AI智能管家贾维斯的亲密互动，展现了高级智能特工该有的样子。

目前，大型模型增强了复杂任务的推理能力，提高了视觉处理能力、计算机控制能力以及更流畅的人机交互，为高级智能体的开发提供了更好的基础。

AutoGLM是一款AI助手工具，可以模拟人类操作手机，只需接收文本/语音命令即可解决日常琐事。目前支持微信、淘宝、美团、大众点评、小红书、高德地图、12306 APP、携程等App上进行例行跨页面操作，在订票、订外卖等日常场景中充分解放用户的双手，掀起了热潮。资本市场掀起一股硬件智能热潮。

微软、谷歌等科技巨头也在畅想科幻电影中的现实，致力于开发人工智能助手（AI Agents），让AI能够像人类一样自主操作手机，完成复杂的推理任务——

微软最近低调开源了AI工具OmniParser，可以帮助用户创建个性化代理来操作个人电脑； 10月22日，微软宣布在Dynamics 365中集成10个自主AI Agent，支持OpenAI最新模型o1，具备自主学习能力，可以自动执行复杂的跨平台业务； 9月，微软推出了名为Windows Agent Arena的基准框架，该框架也属于AI助手开发的范畴。

据 The Information 报道，谷歌计划在 12 月预览其大型行动模型“Project Jarvis”，该模型将帮助用户执行“收集研究、购买产品或预订航班”等任务。

10 月 22 日，Anthropic 为大模型 Claude 迭代了一项新功能——Computer Use，让 AI 像人类一样控制计算机。 Claude3.5 Sonnet是第一个支持计算机控制的模型，可以模拟人类对计算机的操作，包括移动光标、单击按钮和输入文本。

苹果选择将 Siri 与 ChatGPT 集成，以实现更智能的人机交互。还有网友发现，苹果公司已经悄悄发布了两个Ferret-UI的实现版本（分别基于Gemma 2B和Llama 8B），这两个版本是苹果公司在今年5月份发布的。一项让AI理解手机屏幕的技术。

华为公布一项新研究成果，让AI像人类一样操作手机。相关团队提出了一种手机控制架构：轻量级多模态应用控制（LiMAC）。

OpenAI还开源了一款多功能协作AI Agent——Swarm，可以创建多个Agent协同工作，更高效地完成任务。其GPT o1模型增强了推理能力，在解决复杂问题和使用户交互自然方面取得了重大进展，使其更适合AI Agent场景。

值得注意的是，近日，OpenAI CEO Altmann 在互动采访中分享了他对 AI 助手的看法。他相信AI助手可以像聪明的同事一样与用户一起完成项目。 Altman 还提到了 AI 助手的定价——该服务不是根据连接的 AI 助手数量付费，而是根据回答问题所需的计算量付费。

巨大的商业空间正在酝酿

AI助手的应用场景涵盖B端和C端，可以扮演智囊、管家、代理人等多种角色。

作为个人助理，可以进行日程管理、信息查询、任务自动化；在制造、物流、医疗、教育等领域，通过自主学习和优化，AI助手可以实现智能监控、数据分析、流程优化、决策支持、交互沟通等高级功能。

对于用户来说，企业可以利用它来降低成本、提高效率，个人可以利用它来提高工作和生活效率。

随着应用场景落地，更大的商业空间正在酝酿。对于AI助手服务提供商、搭载AI助手的硬件厂商以及与AI助手相连的应用程序来说，新的盈利模式有望从中诞生——

搭载AI助手的手机会卖得更好吗？手机厂商应该选择开发自己的AI助手还是接入第三方服务？与第三方合作的模式是什么？又将如何划分呢？当你需要买东西时，AI助手会打开哪个电商平台？分流的依据是什么？

在产业方面，苹果、荣耀、三星等终端厂商近期开始基于AI助手技术实现边缘AI功能。其中，最近推出的荣耀Magic7系列是首款YOYO智能手机。荣耀CEO赵明对YOYO助手说了一句话，成功下单了2000杯咖啡。据介绍，Magic 7系列搭载的AI助手已经达到了L3级别的智能。它不仅可以完成帮助发送文件、智能填写表格、比较购物价格等基本操作，还可以根据用户指令完成自动续费、购买饮料、计划行程等。路线、机票预订等多种跨应用操作。

在硬件厂商必须谈AI的时代，AI助手或许会成为终端智能化的突破口。

中信证券表示，AutoGLM等终端人工智能辅助技术将带来更短的交互路径。接受语音命令并自动完成复杂操作的能力将为消费者带来极大的便利。有望成为AI终端的亮点功能，吸引消费者升级。

华泰证券也表示，AI助手是通向AGI的核心基础。 AI助手的落地将带来多层面的行业机遇。其中，Agent+终端有望推动人机交互方式的变革。除了终端销量和价格的变化外，可能会对终端应用的商业模式产生更深远的影响。

此外，AI助手与实体智能/人形机器人、区块链、5G等技术的碰撞将会擦出怎样的火花？它将如何帮助构建智能社会和群体智能？这些问题共同成为描绘工业蓝图的画笔。

当我们沉浸在对未来的畅想中时，一个更冷的问题却摆在眼前：AI助手到底有多大用处？

人工智能助手还没有那么“聪明”

与Siri、小爱助手、天猫精灵、小度等“前辈”相比，AutoGLM等AI助手确实更加人性化，响应更加精准，能够处理更加复杂的任务，学习能力也更强。

其中，交互性和自主操作两大亮点，让AI助手脱颖而出。比如，AutoGLM只需要用户一个指令，就可以实现网上购物、订外卖、订高铁票，甚至发微信、抢红包、评论朋友圈、整理笔记、生成策略和总结论文。

但与人们期待的“贾维斯”相比，这些AI助手还远远不够聪明。以智浦AI为例，早期采用者反映的典型问题包括：

您需要更精细的说明，并且无法比较价格。 AutoGLM 为您购买的东西可能不是最优惠的价格；不能很好的处理紧急情况，比如广告弹窗等；可以打开的应用程序是有限的。据了解，目前AutoGLM可以兼容微信、淘宝、美团、小红书、大众点评、12306、携程、高德地图等8个应用。

克劳德的计算机使用也有类似的问题。一个有趣的案例是，一位工程师使用这个工具为整个团队订外卖，但没有具体说明他想吃什么。接到任务后，克劳德只用了1分钟就下了披萨订单。三个披萨总共花了95美元。一篇文章被网友投诉，被推到第一条评论：95 美元 3 个披萨是犯罪。