一個新的AI測試正在超過Openai，Google模型等

根據這個新的AGI基準，人類仍然比AI聰明。學分：karetoria / getty圖像

Google，Openai，DeepSeek等。根據新的基準，幾乎無法實現AGI（人工通用情報）。

ARC獎基金會是一家衡量AGI進度的非營利組織，具有新基準那使領先的AI模型困擾。該測試稱為ARC-AGI-2是第二版ARC-AGI基準，該基准通過挑戰它們使用模式識別，上下文線索和推理來解決視覺難題，從而在一般智能上測試模型。

該推文目前不可用。它可能正在加載或已刪除。

根據ARC-AGI排行榜，Openai的得分4％。 Google的和兩者都得分1.3％。 Anthropic最先進的模型Claude 3.7具有8K令牌限制（指用於處理答案的令牌的數量）得分0.9％。

關於如何以及何時實現AGI的問題仍然像以往任何時候都保持著熱量，各種派係都在爭吵時間表，或者是否有可能。人類首席執行官達里奧·阿莫迪（Dario Amodei）說這可能需要兩到三年的時間，Openai首席執行官Sam Altman“目前的硬件是可以實現的。”但是專家喜歡加里·馬庫斯（Gary Marcus）和Yann Lecun說這項技術還不存在，並且沒有專家才能看到AID AGI HYPE對尋求大量投資的AI公司有利。

可混合的輕速速度

ARC-AGI基準測試旨在通過避免記憶陷阱來挑戰AI模型以外的AI模型 - 在不了解其含義的情況下散發出博士學位級別的回應。取而代之的是，它重點放在人類相對容易解決的難題上，因為我們天生的能力獲取新信息並進行推斷，從而揭示了通過簡單地餵食AI模型更多數據來解決的差距。

“智能需要從有限的經驗中概括並在新的意外情況下應用知識的能力。AI系統已經在許多特定領域中已經是超人（例如，玩GO和圖像識別）。”

“但是，這些都是狹窄，專業的功能。'人類差距'揭示了一般智能所缺少的東西 - 高效地獲得了新技能。”

為了了解AI模型的當前局限性，您可以參加ARC-AGI測試為自己。您可能會對它的簡單性感到驚訝。涉及一些批判性思維，但是ARC-AGI測試不會在紐約時報填字遊戲，Wordle或其他任何流行的大腦預告片。這是具有挑戰性但並非不可能的，答案在難題的邏輯中存在，這是人腦已經進化的解釋。

Openai的O3低模型在ARC-AGI的第一版中得分75.7％。相比之下，其在第二版中的4％得分錶明了測試的困難，但在達到人類水平智能方面還有很多工作要做。

Cecily是Mashable的技術記者，涵蓋了AI，Apple和新興技術趨勢。在哥倫比亞新聞學院獲得碩士學位之前，她花了數年的時間與不合理的集團和B實驗室的初創企業和社會影響業務合作。在此之前，她共同創立了一家針對南美，歐洲和亞洲新興企業家樞紐的初創諮詢業務。您可以在Twitter上找到她@cecily_mauran。

這些新聞通訊可能包含廣告，交易或會員鏈接。通過單擊訂閱，您確認自己是16歲，並同意我們的使用條款和隱私政策。

Also Read

三星 Galaxy S25：新照片似乎洩漏了所有三款機型

《週六夜現場》：人工智慧蒂莫西·查拉梅無法傷害你

Google在Gemini應用中推出Gemini 2.5 Flash預覽。什麼是新的？

我們實際購買的 500 美元以下最好的筆記型電腦

顯然，Threads 擁有高達 2.75 億用戶

NYT Connections Sports Edition今天：4月4日的提示和答案