一个新的AI测试正在超过Openai,Google模型等

根据这个新的AGI基准,人类仍然比AI聪明。 学分:karetoria / getty图像

Google,Openai,DeepSeek等。根据新的基准,几乎无法实现AGI(人工通用情报)。

ARC奖基金会是一家衡量AGI进度的非营利组织,具有新基准那使领先的AI模型困扰。该测试称为ARC-AGI-2是第二版ARC-AGI基准,该基准通过挑战它们使用模式识别,上下文线索和推理来解决视觉难题,从而在一般智能上测试模型。

该推文目前不可用。它可能正在加载或已删除。

根据ARC-AGI排行榜,Openai的得分4%。 Google的和两者都得分1.3%。 Anthropic最先进的模型Claude 3.7具有8K令牌限制(指用于处理答案的令牌的数量)得分0.9%。

关于如何以及何时实现AGI的问题仍然像以往任何时候都保持着热量,各种派系都在争吵时间表,或者是否有可能。人道首席执行官达里奥·阿莫迪(Dario Amodei)这可能需要两到三年的时间,Openai首席执行官Sam Altman“目前的硬件是可以实现的。”但是专家喜欢加里·马库斯(Gary Marcus)Yann Lecun说这项技术还不存在,并且没有专家才能看到AID AGI HYPE对寻求大量投资的AI公司有利。

可混合的轻速速度

ARC-AGI基准测试旨在通过​​避免记忆陷阱来挑战AI模型以外的AI模型 - 在不了解其含义的情况下散发出博士学位级别的回应。取而代之的是,它重点放在人类相对容易解决的难题上,因为我们天生的能力获取新信息并进行推断,从而揭示了通过简单地喂食AI模型更多数据来解决的差距。

“智能需要从有限的经验中概括并在新的意外情况下应用知识的能力。AI系统已经在许多特定领域中已经是超人(例如,玩GO和图像识别)。”

“但是,这些都是狭窄,专业的功能。'人类差距'揭示了一般智能所缺少的东西 - 高效地获得了新技能。”

为了了解AI模型的当前局限性,您可以参加ARC-AGI测试为自己。您可能会对它的简单性感到惊讶。涉及一些批判性思维,但是ARC-AGI测试不会在纽约时报填字游戏,Wordle或其他任何流行的大脑预告片。这是具有挑战性但并非不可能的,答案在难题的逻辑中存在,这是人脑已经进化的解释。

Openai的O3低模型在ARC-AGI的第一版中得分75.7%。相比之下,其在第二版中的4%得分表明了测试的困难,但在达到人类水平智能方面还有很多工作要做。

Cecily是Mashable的技术记者,涵盖了AI,Apple和新兴技术趋势。在哥伦比亚新​​闻学院获得硕士学位之前,她花了数年的时间与不合理的集团和B实验室的初创企业和社会影响业务合作。在此之前,她共同创立了一家针对南美,欧洲和亚洲新兴企业家枢纽的初创咨询业务。您可以在Twitter上找到她@cecily_mauran

这些新闻通讯可能包含广告,交易或会员链接。通过单击订阅,您确认自己是16岁,并同意我们的使用条款隐私政策