一个新的AI测试正在超过Openai，Google模型等

根据这个新的AGI基准，人类仍然比AI聪明。学分：karetoria / getty图像

Google，Openai，DeepSeek等。根据新的基准，几乎无法实现AGI（人工通用情报）。

ARC奖基金会是一家衡量AGI进度的非营利组织，具有新基准那使领先的AI模型困扰。该测试称为ARC-AGI-2是第二版ARC-AGI基准，该基准通过挑战它们使用模式识别，上下文线索和推理来解决视觉难题，从而在一般智能上测试模型。

该推文目前不可用。它可能正在加载或已删除。

根据ARC-AGI排行榜，Openai的得分4％。 Google的和两者都得分1.3％。 Anthropic最先进的模型Claude 3.7具有8K令牌限制（指用于处理答案的令牌的数量）得分0.9％。

关于如何以及何时实现AGI的问题仍然像以往任何时候都保持着热量，各种派系都在争吵时间表，或者是否有可能。人道首席执行官达里奥·阿莫迪（Dario Amodei）说这可能需要两到三年的时间，Openai首席执行官Sam Altman“目前的硬件是可以实现的。”但是专家喜欢加里·马库斯（Gary Marcus）和Yann Lecun说这项技术还不存在，并且没有专家才能看到AID AGI HYPE对寻求大量投资的AI公司有利。

可混合的轻速速度

ARC-AGI基准测试旨在通过避免记忆陷阱来挑战AI模型以外的AI模型 - 在不了解其含义的情况下散发出博士学位级别的回应。取而代之的是，它重点放在人类相对容易解决的难题上，因为我们天生的能力获取新信息并进行推断，从而揭示了通过简单地喂食AI模型更多数据来解决的差距。

“智能需要从有限的经验中概括并在新的意外情况下应用知识的能力。AI系统已经在许多特定领域中已经是超人（例如，玩GO和图像识别）。”

“但是，这些都是狭窄，专业的功能。'人类差距'揭示了一般智能所缺少的东西 - 高效地获得了新技能。”

为了了解AI模型的当前局限性，您可以参加ARC-AGI测试为自己。您可能会对它的简单性感到惊讶。涉及一些批判性思维，但是ARC-AGI测试不会在纽约时报填字游戏，Wordle或其他任何流行的大脑预告片。这是具有挑战性但并非不可能的，答案在难题的逻辑中存在，这是人脑已经进化的解释。

Openai的O3低模型在ARC-AGI的第一版中得分75.7％。相比之下，其在第二版中的4％得分表明了测试的困难，但在达到人类水平智能方面还有很多工作要做。

Cecily是Mashable的技术记者，涵盖了AI，Apple和新兴技术趋势。在哥伦比亚新闻学院获得硕士学位之前，她花了数年的时间与不合理的集团和B实验室的初创企业和社会影响业务合作。在此之前，她共同创立了一家针对南美，欧洲和亚洲新兴企业家枢纽的初创咨询业务。您可以在Twitter上找到她@cecily_mauran。

这些新闻通讯可能包含广告，交易或会员链接。通过单击订阅，您确认自己是16岁，并同意我们的使用条款和隐私政策。

Also Read

点击神奇优惠券即可通过亚马逊优惠获得价值 250 美元的第 10 代 iPad

在Target的Booktok图书上花费25美元，可获得5美元的折扣

白宫网站已删除所有 LGBTQ 页面

一个新的AI测试正在超过Openai，Google模型等

这个Z-er Gen退出社交媒体，从那以后再也没有回头

Litter-Robot 4 值 700 美元吗？