一個新的AI測試正在超過Openai,Google模型等

根據這個新的AGI基準,人類仍然比AI聰明。 學分:karetoria / getty圖像

Google,Openai,DeepSeek等。根據新的基準,幾乎無法實現AGI(人工通用情報)。

ARC獎基金會是一家衡量AGI進度的非營利組織,具有新基準那使領先的AI模型困擾。該測試稱為ARC-AGI-2是第二版ARC-AGI基準,該基准通過挑戰它們使用模式識別,上下文線索和推理來解決視覺難題,從而在一般智能上測試模型。

該推文目前不可用。它可能正在加載或已刪除。

根據ARC-AGI排行榜,Openai的得分4%。 Google的和兩者都得分1.3%。 Anthropic最先進的模型Claude 3.7具有8K令牌限制(指用於處理答案的令牌的數量)得分0.9%。

關於如何以及何時實現AGI的問題仍然像以往任何時候都保持著熱量,各種派係都在爭吵時間表,或者是否有可能。人類首席執行官達里奧·阿莫迪(Dario Amodei)這可能需要兩到三年的時間,Openai首席執行官Sam Altman“目前的硬件是可以實現的。”但是專家喜歡加里·馬庫斯(Gary Marcus)Yann Lecun說這項技術還不存在,並且沒有專家才能看到AID AGI HYPE對尋求大量投資的AI公司有利。

可混合的輕速速度

ARC-AGI基準測試旨在通過​​避免記憶陷阱來挑戰AI模型以外的AI模型 - 在不了解其含義的情況下散發出博士學位級別的回應。取而代之的是,它重點放在人類相對容易解決的難題上,因為我們天生的能力獲取新信息並進行推斷,從而揭示了通過簡單地餵食AI模型更多數據來解決的差距。

“智能需要從有限的經驗中概括並在新的意外情況下應用知識的能力。AI系統已經在許多特定領域中已經是超人(例如,玩GO和圖像識別)。”

“但是,這些都是狹窄,專業的功能。'人類差距'揭示了一般智能所缺少的東西 - 高效地獲得了新技能。”

為了了解AI模型的當前局限性,您可以參加ARC-AGI測試為自己。您可能會對它的簡單性感到驚訝。涉及一些批判性思維,但是ARC-AGI測試不會在紐約時報填字遊戲,Wordle或其他任何流行的大腦預告片。這是具有挑戰性但並非不可能的,答案在難題的邏輯中存在,這是人腦已經進化的解釋。

Openai的O3低模型在ARC-AGI的第一版中得分75.7%。相比之下,其在第二版中的4%得分錶明了測試的困難,但在達到人類水平智能方面還有很多工作要做。

Cecily是Mashable的技術記者,涵蓋了AI,Apple和新興技術趨勢。在哥倫比亞新​​聞學院獲得碩士學位之前,她花了數年的時間與不合理的集團和B實驗室的初創企業和社會影響業務合作。在此之前,她共同創立了一家針對南美,歐洲和亞洲新興企業家樞紐的初創諮詢業務。您可以在Twitter上找到她@cecily_mauran

這些新聞通訊可能包含廣告,交易或會員鏈接。通過單擊訂閱,您確認自己是16歲,並同意我們的使用條款隱私政策