Openai不知道為什麼。 信用:Didem Mente / Anadolu / Getty圖像
經過自己的測試,最新的- 米尼,幻覺明顯高於O1。
首先報導TechCrunch,Openai的系統卡詳細介紹了PersonQA評估結果,旨在測試幻覺。從該評估的結果來看,O3的幻覺率為33%,O4-Mini的幻覺率為48%,幾乎是一半的時間。相比之下,O1的幻覺率為16%,這意味著O3幻覺的頻率約為兩倍。
該系統卡指出,O3“傾向於總體上提出更多索賠,從而導致更準確的索賠以及更多不准確/幻覺的索賠。”但是Openai不知道根本的原因,只是說:“需要更多的研究來了解這一結果的原因。”
OpenAI的推理模型的計費比GPT-4O和GPT-4.5(例如GPT-4O和GPT-4.5)更準確,因為他們使用更多的計算來“花更多的時間在回應之前花費更多的時間”,如描述在O1公告中。 O系列模型並沒有在很大程度上依靠隨機方法來提供答案,而是經過培訓以“完善他們的思維過程,嘗試不同的策略並認識到他們的錯誤”。
但是,系統卡為了2月份發布的,顯示PersonQA評估的幻覺率為19%。同一張卡也將其與GPT-4O進行了比較,GPT-4O的幻覺率為30%。
可混合的輕速速度
評估基準很棘手。它們可以是主觀的,尤其是在內部開發的情況下,並且研究在其數據集中發現缺陷,甚至如何評估模型。
另外,有些人依靠不同的基準和方法來測試準確性和幻覺。擁抱面的幻覺基準評估大約1,000個公共文件中“生成摘要中幻覺的發生”模型,並發現市場上主要模型的全面幻覺率要低得多,而不是Openai的評估。 GPT-4O的得分為1.5%,GPT-4.5預覽1.2%和O3米尼高,推理得分為0.8%。值得注意的是,當前排行榜中未包含O3和O4-Mini。
這就是要說的;甚至行業標準的基準也使評估幻覺率很難。
然後,在利用Web搜索以獲取其答案時,模型的額外複雜性往往更準確。但是為了使用chatgpt搜索,OpenAi共享數據對於第三方搜索提供商和內部使用OpenAI模型的企業客戶,可能不願意向此提示。
無論如何,如果Openai說他們的全新O3和O4-Mini車型幻覺高於其非調理模型,那可能是其用戶的問題。 Mashable與Openai伸出援手,並將通過回應更新這個故事。
Cecily是Mashable的技術記者,涵蓋了AI,Apple和新興技術趨勢。在哥倫比亞新聞學院獲得碩士學位之前,她花了數年的時間與不合理的集團和B實驗室的初創企業和社會影響業務合作。在此之前,她共同創立了一家針對南美,歐洲和亞洲新興企業家樞紐的初創諮詢業務。你可以在x上找到她@cecily_mauran。