OpenAI 将视频引入 ChatGPT 高级语音模式

ChatGPT 的高级语音模式现在具有视频和屏幕共享功能。

该功能于去年五月发布，但只有音频模式已上线。现在，用户可以使用手机摄像头与 ChatGPT 聊天，模型将“看到”您所看到的内容。

在直播中，CPO Kevin Weil 和其他 OpenAI 团队成员演示了 ChatGPT 协助如何制作手冲咖啡。通过将摄像机对准该动作，AVM 证明它了解咖啡机的原理，并带领团队完成了饮料的冲泡过程。该团队还展示了 ChatGPT 如何通过理解留着圣诞老人胡子的 Weil 手机上的打开消息来支持屏幕共享。

可混搭光速

谷歌宣布这一期待已久的消息发布一天后其下一代旗舰机型Gemini 2.0。新的 Gemini 2.0 还可以处理视觉和音频输入，并具有更多代理功能，这意味着它可以代表用户执行多步骤任务。 Gemini 2.0 的代理功能目前以三个不同名称作为研究原型存在：用于通用 AI 助手的 Project Astra、用于特定 AI 任务的 Project Mariner 以及用于开发人员的 Project Jules。

OpenAI 也不甘示弱，其演示展示了 ChatGPT 的视觉模式如何准确识别物体，甚至是可中断的。是的，其中一部分包括语音模式下的圣诞老人语音选项，声音低沉、欢快，还有很多“ho-ho-hos”。您可以通过点击 ChatGPT 中的雪花图标与 OpenAI 版本的圣诞老人聊天。目前尚不清楚真正的圣诞老人是否为 AI 训练贡献了他的声音，或者 OpenAI 使用了他的声音。

奇怪的是，当在 ChatGPT 应用程序中选择圣诞老人语音时，用户会被警告该语音仅适用于 13 岁及以上的人。