上个月,耗资615亿美元的AI初创公司Anthropic设立了游戏生产率。游戏直播在抽搐上并不是什么新鲜事神奇宝贝红。
我们现在一个月,,,,和直播仍在。但是,克劳德有没有进步这么多。而且,以这种速度,人类的AI代理可能永远不会像以往任何时候一样是最好的。
根据拟人的说法,第一次发射“ Claude扮演神奇宝贝”项目,其AI代理Claude的先前版本在某些非常基本的任务上失败了。例如,根据拟人化的说法,克劳德3.5试图逃离2024年6月的几乎每场战斗。
拟人化的几个月零几个版本的克劳德(Claude)说,发生了明显的变化。 2025年2月,人类为克劳德(Claude)3.7十四行诗(Claude 3.7 Sonnet)旋转了扮演神奇宝贝。
“几个小时之内,克劳德击败了布罗克。几天后,它击败了薄雾,”拟人说。 “进步较老的模型几乎没有实现的希望。”
可混合的轻速速度
Anthropic说,与AI代理商的先前版本不同,Claude 3.7十四行诗可以提前计划,记住目标并从错误中学习。它还构建了知识库,看到屏幕和模拟按钮按下。
但是,最初在游戏中取得的Claude 3.7十四行诗似乎已经停滞不前。
例如,直播观众看着如第3.7条所示78小时在游戏中浏览月亮。在Reddit上,游戏玩家估计的通常只需要几个小时才能在同一阶段前进。
可以看到克劳德(Claude)在圈子中绊倒,绊倒相同的道路,并经常在试图绕过游戏时撞到墙壁。
直播引人入胜,尤其是当文本框列出克劳德(Claude)的“思考”时,当AI经纪人试图弄清楚下一步要做什么时。
根据人类工程师在接受采访时ARS Technica,克劳德(Claude)在涉及文本的游戏方面(例如《神奇宝贝)战斗》(PokémonBattles)的游戏方面更加轻松。但是,它在游戏的更视觉方面挣扎,例如在地图上从城镇四处移动。
Claude 3.7十四行诗在游戏中比以前的Claude模特进展得多,因此取得了进展。但是,对于那些警告AI很快就能占领世界的人,我们还不到现实。克劳德(Claude)仍然有151个神奇宝贝。