OpenAI 將視訊引入 ChatGPT 進階語音模式

ChatGPT 的高級語音模式現在具有視訊和螢幕分享功能。

該功能於去年五月發布，但只有音訊模式已上線。現在，用戶可以使用手機相機與 ChatGPT 聊天，模型將「看到」您所看到的內容。

在直播中，CPO Kevin Weil 和其他 OpenAI 團隊成員示範了 ChatGPT 協助如何製作手沖咖啡。透過將攝影機對準該動作，AVM 證明它了解咖啡機的原理，並帶領團隊完成了飲料的沖泡過程。該團隊還展示了 ChatGPT 如何透過理解留著聖誕老人鬍子的 Weil 手機上的開啟訊息來支援螢幕共享。

可混搭光速

谷歌宣布這項期待已久的消息發布一天后其下一代旗艦機型Gemini 2.0。新的 Gemini 2.0 還可以處理視覺和音訊輸入，並具有更多代理功能，這意味著它可以代表使用者執行多步驟任務。 Gemini 2.0 的代理功能目前以三個不同名稱作為研究原型存在：用於通用 AI 助手的 Project Astra、用於特定 AI 任務的 Project Mariner 以及用於開發人員的 Project Jules。

OpenAI 也不甘示弱，其示範展示了 ChatGPT 的視覺模式如何準確地辨識物體，甚至是可中斷的。是的，其中一部分包括語音模式下的聖誕老人語音選項，聲音低沉、歡快，還有很多“ho-ho-hos”。您可以點擊 ChatGPT 中的雪花圖示與 OpenAI 版本的聖誕老人聊天。目前尚不清楚真正的聖誕老人是否為 AI 訓練貢獻了他的聲音，或者 OpenAI 使用了他的聲音。

奇怪的是，當在 ChatGPT 應用程式中選擇聖誕老人語音時，用戶會被警告該語音僅適用於 13 歲及以上的人。