OpenAI技术分享日:ChatGPT高级语音模式开启,实现实时视频通话与图像上传
为什么说它更接近你的“初心”呢?
OpenAI CEO Altman 此前在接受 Salesforce 专访时透露,他最喜欢的 AI 电影是《她》(《Her》,一个男人爱上他的 AI 虚拟助手的故事),“对话语言界面的想法令人难以置信的是,The Information在报道中称,奥特曼希望最终开发出一款能够像电影中的AI助手一样快速做出反应的虚拟助手。
《她》中的机器人女友代表了具身智能的终极形态,可以毫无障碍地与人互动。
此前,ChatGPT 的 DAN 模式(Do Anything Now 的缩写)允许 AI 以更随意的方式与用户对话。它的“人情味”令人惊叹。它不仅可以低延迟通信,还可以模仿人声并提供情感价值。这次,ChatGPT不仅可以听、说,还可以解锁视觉功能,通过摄像头“睁开眼睛看世界”。
在本次分享直播中,CEO Sam Altman 并未出现,但 OpenAI 首席产品官 Kevin Weil、OpenAI 产品经理 Jackie Shannon 以及负责多模态的 OpenAI 技术团队成员 Michelleqin 和 Rowan Zellers 等四位员工来到了现场引入更新的功能。
高级语音模式下的实时视频通话功能是亮点。当OpenAI团队成员通过ChatGPT视频相互打招呼并相互了解到一定程度后,有人问:那个长着驯鹿角的同事叫什么名字? ChatGPT利用圣诞老人有限的声音给出了准确的答案,展示了它的“记忆”能力。
接下来,团队演示了ChatGPT如何教人们操作手冲咖啡设备。只需与ChatGPT进行“视频通话”,它就能根据你面前的设备一步步教你。在整个演示过程中,ChatGPT 听起来自然而友好,调整了语气,甚至像人类一样大笑。
屏幕共享功能可以让ChatGPT通过屏幕共享“看到”你的屏幕,这也是一种实时视频理解能力。用户只需点击右下角的高级语音模式图标,在下拉菜单中选择共享屏幕,即可获得针对性的帮助。
OpenAI团队成员成功与他分享后,他让ChatGPT浏览他的短信并请求指导和回复。 ChatGPT展现了自己“高情商”的一面,并建议称赞对方的圣诞装饰品。
据介绍,高级语音模式支持50多种语言,9种逼真的输出语音选项,每种语音都有自己独特的语气和特点。而其背后的GPT-4o不仅可以将语音转换为文本,还可以理解和标记音频的其他特征,例如呼吸和情感。
支持50多种语言的ChatGPT可以实时理解现实世界场景,这不仅大大提升了ChatGPT作为AI伴侣工具的体验,也为更高效、更强大的AI教育工具树立了示范。
上述功能将从今天开始在 ChatGPT 移动应用程序中推出,并在下周内向所有 Teams 用户以及大多数 Plus 和 Pro 用户提供。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。