ChatGPT 的高级语音模式现在具有视频和屏幕共享功能。
该功能于去年五月发布,但只有音频模式已上线。现在,用户可以使用手机摄像头与 ChatGPT 聊天,模型将“看到”您所看到的内容。
在直播中,CPO Kevin Weil 和其他 OpenAI 团队成员演示了 ChatGPT 协助如何制作手冲咖啡。通过将摄像机对准该动作,AVM 证明它了解咖啡机的原理,并带领团队完成了饮料的冲泡过程。该团队还展示了 ChatGPT 如何通过理解留着圣诞老人胡子的 Weil 手机上的打开消息来支持屏幕共享。
可混搭光速
谷歌宣布这一期待已久的消息发布一天后其下一代旗舰机型Gemini 2.0。新的 Gemini 2.0 还可以处理视觉和音频输入,并具有更多代理功能,这意味着它可以代表用户执行多步骤任务。 Gemini 2.0 的代理功能目前以三个不同名称作为研究原型存在:用于通用 AI 助手的 Project Astra、用于特定 AI 任务的 Project Mariner 以及用于开发人员的 Project Jules。
OpenAI 也不甘示弱,其演示展示了 ChatGPT 的视觉模式如何准确识别物体,甚至是可中断的。是的,其中一部分包括语音模式下的圣诞老人语音选项,声音低沉、欢快,还有很多“ho-ho-hos”。您可以通过点击 ChatGPT 中的雪花图标与 OpenAI 版本的圣诞老人聊天。目前尚不清楚真正的圣诞老人是否为 AI 训练贡献了他的声音,或者 OpenAI 使用了他的声音。
奇怪的是,当在 ChatGPT 应用程序中选择圣诞老人语音时,用户会被警告该语音仅适用于 13 岁及以上的人。
推文可能已被删除
从今天开始,ChatGPT Plus 和 Pro 用户可以使用视频和屏幕共享,企业版和 Edu 版本将于 1 月推出。